在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

playoffs

2019-12-15

限时打折

正文

如何解决过拟合问题？一种方式就是增加足够多的训练数据，另外一种方式就是使用正则化的方式，本节课程将讲解为什么正则化可以解决过拟合？为什么它可以减少高方差问题？

我们先来看一下欠拟合、正常拟合、过拟合这三种情况：

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

上面的三张图中第一个是欠拟合（高偏差）。第二个是正常集合。第三个是过拟合（高方差）

假如现在对于上面的数据，我们有一个过拟合的神经网络如下所示：

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

那么此时我们为了解决这个神经网络的过拟合的问题，我们可以为我们的神经网络的代价函数添加正则化项（是弗罗贝尼乌斯范数）：

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

当为损失函数添加好了正则化项的时候，确实能够有效的解决过拟合的问题，那么此时的问题就是为什么缩2范数，或者弗罗贝尼乌斯范数或者参数可以减少过拟合？

直观上理解就是如果正则化设置得足够大，权重矩阵就会被设置为接近于 0 的值，直观理解就是把多隐藏单元的权重设为 0，于是基本上消除了这些隐藏单元的许多影响（下图中画×的神经元）。如果是这种情况，这个被大大简化了的神经网络会变成一个很小的网络，小到如同一个逻辑回归单元，可是深度却很大，它会使这个网络从过度拟合的状态更接近左图的高偏差状态。

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

但是并不会足够大，而是会存在一个中间值，于是会有一个接近"Just Right"的中间状态：

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

现在我们应该大概知道了为什么使用正则化可以解决过拟合的问题了，因为使用正则化可以让神经网络中的一部分神经元失去作用，使得原本复杂的神经网络变得简单，神经网络变得简单就意味着参数w变少了，那么神经网络的过拟合问题就得到解决了。

其实也不能说一部分神经元失去了作用，实际上是该神经网络的所有隐藏单元依然存在，但是它们的影响变得更小了。神经网络变得更简单了，貌似这样更不容易发生过拟合

为了帮助大家对正则化解决神经网络过拟合的问题有一个更加深刻的理解，我们再来直观感受一下，正则化为什么可以预防过拟合，假设我们用的是这样的双曲线（tanh）激活函数。

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

g（z）=tanh(z)，我们仔细观察这个图像，我们可以发现只要非常小（2位置），那么激活函数几乎可以看成为线性的，当z变大的时候（1、3位置）激活函数开始变得非线性。

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

那么我们现在来看一下当λ变大的时候发生了什么？当lambda变大的时候，w一定会变小，而z=wa+b，所以z也会变小

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

如过z变小，然后z在这个位置的话（被圈起来的位置）

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

如果的值最终在这个范围内，都是相对较小的值，()大致呈线性，神经网络中每层几乎都是线性的，和线性回归函数一样。如果每层都是线性的，那么整个网络就是一个线性网络，即使是一个非常深的深层网络，因具有线性激活函数的特征，最终我们只能计算线性函数，因此，它不适用于非常复杂的决策，以及过度拟合数据集的非线性决策边界（如同过度拟合高方差的情况），就是说使用正则化之后下图这样的非线性决策边界计算不出来了。

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

所以如果正则化参数变得很大，参数很小，也会相对变小，此时忽略的影响，会相对变小，实际上，的取值范围很小，这个激活函数，也就是曲线函数ℎ会相对呈线性，整个神经网络会计算离线性函数近的值，这个线性函数非常简单，并不是一个极复杂的高度非线性函数，那么就不会发生过拟合。

如果我们使用的是梯度下降函数，在调试梯度下降时，其中一步就是把代价函数设计成这样一个函数，它代表梯度下降的调幅数量（梯度下降的次数和损失的关系）。

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

可以看到，代价函数对于梯度下降的每个调幅都单调递减。我们需要的就是这样的图像，要想出现这样的图像我们需要使用正则化的损失函数：

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

如果你用的是原函数，你可能看不到单调递减现象，

在深度学习中为什么正则化技术可以解决模型算法的过拟合问题？

所以为了调试梯度下降，请务必使用新定义的函数

正则化机器学习深度学习神经网络算法

playoffs

0 关注 0 粉丝 0 动态

相关推荐

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

Python文本预处理，试试BAT大佬总结的实用代码！

本文将讨论文本预处理的基本步骤，旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外，本文还将进一步讨论文本预处理过程所需要的工具。当拿到一个文本后，首先从文本正则化处理开始。如果文本中的数字与文本分析无关的话，那就删除这些数字。通常，正则化

wordmhg 2020-11-06

Keras调用LSTM之函数接口介绍

activation: 要使用的激活函数，如果传入None，则不使用激活函数。默认分段线性近似 sigmoid 。use_bias: 布尔值，该层是否使用偏置向量。如果为 True，初始化时，将忘记门的偏置加 1。将其设置为 True 同时还会强制bi

xiaoxiaokeke 2020-07-28

机器学习---正则化

正则化的目的是为了防止过拟合，降低模型的复杂度。式中，是一个常数，为样本个数，是一个超参数，用于控制正则化程度。设置一个超参数 keep_prob，比如将 keep_prob 设置为 0.7，那么就会随机30%的节点消失，消失这个动作其实很简单，只是将这一

卖小孩的咖啡 2020-05-30

卷积神经网络模型可解释性

缺乏可解释性仍然是在许多应用中采用深层模型的一个关键障碍。在这项工作中，明确地调整了深层模型，这样人类用户可以在很短的时间内完成他们预测背后的过程。具体地说，训练了深度时间序列模型，使得类概率预测具有较高的精度，同时被节点较少的决策树紧密地建模。使用直观的

wenxuegeng 2020-05-04

机器学习基础---过拟合问题及正则化技术

到现在为止，我们已经学习了几种不同的学习算法，包括线性回归和逻辑回归，它们能够有效地解决许多问题，但是当将它们应用到某些特定的机器学习应用时，会遇到过拟合的问题，可能会导致它们效果很差。继续使用线性回归来预测房价的例子，我们通过建立以住房面积为自变量的函数

playoffs 2020-05-01

【Keras】减少过拟合的秘诀——Dropout正则化

阅读完本文，你就学会了在Keras框架中，如何将深度学习神经网络Dropout正则化添加到深度学习神经网络模型里。其原理非常简单粗暴：任意丢弃神经网络层中的输入，该层可以是数据样本中的输入变量或来自先前层的激活。它能够模拟具有大量不同网络结构的神经网络，并

CodeWang 2020-02-15

[深度之眼机器学习训练营第四期]过拟合与正则化

机器学习模型面临的两个主要问题是欠拟合与过拟合。而过拟合，即模型具有较高的方差，意味着模型的经验误差低而泛化误差高，对新数据的泛化能力差，如下右图所示。通常，欠拟合是由于模型过于简单或使用数据集的特征较少导致的。相反，过拟合则是模型过于复杂或特征过多引起的

kingzone 2020-01-23

神经网络中的过拟合

先说下一般对原始数据的划分为什么分为训练集、验证集、测试集三个部分？因为如果在test data上来调节参数，那么随着训练的进行，我们的网络实际上就是在一点一点地向我们的test data过度拟合，导致最后得到的testdata的指标参考意义下降。首先明确

georgesale 2020-01-01

如何理解深度学习中的dropout正则化技术解决过拟合问题？

正文为了解决神经网络的过拟合问题，我们需要使用L2正则化，除了L2正则化解决过拟合的问题，还可以使用另外一个正则化方法——Dropout，我们下面详细介绍一个这个正则化的原理。这个神经网络存在着过拟合的问题，我们要使用dropout来解决这个过拟合问题，d

无风而起 2019-12-24

避免神经网络过拟合的5种技术

本文介绍了5种在训练神经网络中避免过拟合的技术。最近一年我一直致力于深度学习领域。过拟合的模型通常是不精确的，因为这样的预测趋势并不会反映数据的真实情况。最常见的技术是L1和L2正则化：。L1惩罚项的目的是使权重绝对值最小化。然而L1不容易受到离群值的影响

雜貨鋪 2019-12-20

SIGAI机器学习第十八集线性模型2

之前讲过SVM，是通过最大化间隔导出的一套方法，现在从另外一个角度来定义SVM，来介绍整个线性SVM的家族。线性支持向量机简介L2正则化L1-loss SVC原问题L2正则化L2-loss SVC原问题L2正则化SVC对偶问题L1正则化L2-loss SV

sxyhetao 2019-12-03

改善深层神经网络（一）深度学习的实用层面

为什么正则化可以避免过拟合？当 lambda 足够大时，最小化 J 时，就会使得权重矩阵 w 趋近于0，神经网络简化为高偏差状态：。当 z 在较小的阶段，函数 g 趋近于线性. 如果每一层都趋近线性，该网络为线性网络，不会产生过拟合的情况.对于第3层进行随

PeterHuang0 2019-11-09

机器学习总结（算法）：回归、分类、正则化、模型优化、生成学习

在本文中，我们深入了解传统机器学习算法，包括回归、分类、核、高斯过程、贝叶斯线性回归、SVM、聚类和决策树，还包括成本函数，正则化，MLE, MAP，拉普拉斯近似和受限玻尔兹曼机，我们也将快速了解像LSTM这样的深度网络。线性回归模型y = f，线性向量为

stevenkwong 2019-09-20

单机多 GPU 加速 TensorFlow 程序

check 2019-10-31

机器学习-正则化（岭回归、lasso）和前向逐步回归

这个时候会出现矩阵不可逆的情况，为什么呢？遇到这种情况，我们可以采用正则化的方式或者剔除多余特征，这里我们介绍一些正则化的方式，例如岭回归、lasso，以及另外的一种方法：前向逐步回归。在数学，统计学和计算机科学中，尤其是在机器学习和逆问题中，正则化是添加

CYJ0go 2019-10-19

机器学习-正则化

目前为止我们已经学习了两种机器学习的方法了。如果你去实践，会发现很多问题，其中一项很可能就是过拟合的问题。过拟合就是我们在学习中，对样本的拟合非常好，但是一旦对新的样本就完全失效。这类问题以后还会有分析，究其原因，我们使用模型中某些特征的影响被放大了，这是

lizhengjava 2016-10-23

使用权重正则化较少模型过拟合

介绍权重正则化可以减轻深度神经网络模型的过拟合问题，可以提升对新数据的泛化能力。有多种正则方法可供选择，如：L1，L2正则化，每种方法在使用前需要超参数配置。在这篇文章中，你将学习在keras如何使用权重正则化的方法来减轻模型过拟合问题。

dataastron 2019-07-01

CVPR 2019：北邮提出新AI模型压缩算法，显著降低计算复杂度

来自北京邮电大学的研究人员开发了一种AI模型压缩算法，可以让深度学习的运算不再依赖高昂的计算和存储设备，保持模型的识别精度无损的前提下，显著降低模型的计算复杂度，本文带来技术解读。研究人员称，模型压缩算法能够有效降低参数冗余，从而减少存储占用、通信带宽和计

xgxyxs 2019-06-29

【Keras】减少过拟合的秘诀——Dropout正则化

阅读完本文，你就学会了在Keras框架中，如何将深度学习神经网络Dropout正则化添加到深度学习神经网络模型里。Dropout正则化是最简单的神经网络正则化方法。其原理非常简单粗暴：任意丢弃神经网络层中的输入，该层可以是数据样本中的输入变量或来自先前层的

georgesale 2019-06-29

playoffs

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号