机器学习系列15：学习曲线

AmbiRF

2019-06-10

机器学习系列15：学习曲线

我们在调试一个学习算法时，通常会用学习曲线(Learning Curves)观察机器学习算法是否为欠拟合或过拟合。

随着样本数的不断增大，我们发现在高偏差(欠拟合)时交叉验证集代价函数 J_cv(θ) 和测试集代价函数 J_test (θ) 的图像如下，这个图像也叫做学习曲线(Learning Curves)：

机器学习系列15：学习曲线

在高偏差时，随着样本数目的增加，测试集的偏差与交叉验证集的偏差几乎相等，测试集的偏差在上升到一定程度后就不会继续上升;根据交叉验证集来看，多项式的泛化程度随着数据集的增加减小到一定程度后就不再减小。这代表着，在高偏差(欠拟合)的情况下，增大数据集并不会优化你的算法。所以，在高偏差的情况下，你不需要把时间浪费在收集大量数据上。

再来看，在高方差的情况：

机器学习系列15：学习曲线

在高方差下，随着样本数目的增加，交叉验证集的偏差一直与测试集的偏差有很大的差距，测试集的偏差在不断地上升;根据交叉验证集来看，多项式的泛化程度随着数据集的增加而不断地减小。这代表着，在高方差(过拟合)的情况下，增大数据集在一定程度上会优化你的算法。

因此，你了解当前算法处于高偏差或高方差对于你决定是否把大量的时间花费在寻找数据集很有必要，这会为你节省大量的时间，把时间用在刀刃上吧!

回到一开始的问题，在机器学习中，我们训练了一个模型，可能会发现这个模型得到的数据与实际数据偏差太大，也就是这个模型表现的不好。这时，我们需要想一些方法来优化我们的算法。

下面这些方法，就是在遇到高方差或高偏差时，我们所需要做的事情。

机器学习系列15：学习曲线

· 得到更多的训练集：适用于高方差。

· 减小特征的数目：适用于高方差。

· 尝试去增加特征：适用于高偏差。

· 增加多项式：适用于高偏差。

· 增大 λ：适用于高方差。

· 减小 λ：适用于高偏差。

机器学习学习曲线交叉验证

安科网

机器学习系列15：学习曲线

AmbiRF

AmbiRF

相关推荐

数据科学面试中应了解的十种机器学习概念

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

AmbiRF