SIGAI机器学习第四集基本概念

playoffs

2019-11-30

关注关注

大纲：

算法分类
有监督学习与无监督学习
分类问题与回归问题
生成模型与判别模型
强化学习
评价指标
准确率与回归误差
ROC曲线
交叉验证
模型选择
过拟合与欠拟合
偏差与方差
正则化

半监督学习归类到有监督学习中去。

有监督学习大部分问题都是分类问题，有监督中的分类问题分为生成式模型和判别模型。

分类问题常用的评价指标是准确率，对于回归问题常用的评价指标是回归误差均方误差。

二分类问题中常为它做ROC曲线。

过拟合通用的解决手段是正则化。

算法分类：

监督信号，就是样本的标签值，根据知否有标签值将机器学习分类为有监督学习、无监督学习、半监督学习。

有监督学习与无监督学习：

有监督学习分两个过程：训练和预测。

预测根据输入样本(x,y)，训练出一个模型y=f(x)来预测新的样本的标签值。

无监督学习：聚类和数据降维。

数据降维是为了避免维数灾难，高维数据算法处理起来比较困难，数据之间具有相关性。

强化学习：

是从策略控制领域诞生出来的一种算法，它根据环境数据预测动作，目标是最大化奖励值。

分类问题与回归问题：

有监督学习分为分类问题和回归问题，如判断一个水果的类别就是分类问题，根据个人信息预测收入就是回归问题。

分类问题：

Rⁿ-->Z，把n维向量映射为一个整数值，该值对应一个分类。

人脸检测就是而分类问题，图像中某个位置区域是人脸还是不是人脸。

二分类问题最简单办法是找到一个直线方程进行分类，线性分类器sgn(w^Tx+b)，输出+1或-1。

回归问题：

Rⁿ-->R，R是要预测的实数值。

最简单的算法是线性回归f(x)=w^Tx+b，相比分类问题省去了sgn函数。

损失函数也叫误差函数， SIGAI机器学习第四集基本概念，几乎对于所有的有监督学习，它的目标都是最小化损失函数或者最大化的对数似然函数，在确定了这个优化目标以后，工作就完成一半了，剩下的就是完成最优化求解问题了，可以标准的算法如梯度下降法、牛顿法等，根据自己算法的特点选用一个合适的最优化算法来求解，这是标准化的流程，求解完之后，就求解出了f(x)参数值完成了训练，之后就可以用f(x)来预测新的样本用来做分类或者回归。

线性回归：

SIGAI机器学习第四集基本概念，是一个线性函数。

SIGAI机器学习第四集基本概念

训练的目标是最小化均方误差MSE，训练的时候要求解的是一个无约束条件的凸优化问题（要证明是均方误差损失函数是凸函数，就要证明它的Hession矩阵半正定），凸优化问题就可以找到L的全局极小值点。

证明MSE损失函数是凸函数：

求L的Hession矩阵：

SIGAI机器学习第四集基本概念

1/lX^TX矩阵对应的二次型为x^T1/lX^TXx，即1/l(x^TX^T)(Xx)，即(Xx)^T(Xx)，由于(Xx)^T是一个行向量，(Xx)是列向量，它们两个相乘是向量做内积，大于等于零，所以Hession矩阵半正定，所以MSE损失函数L是凸函数，存在全局极小值点。

生成模型与判别模型：

对于分类问题按照求解思路可以把它分为两种类型：

①判别模型，直接根据函数判断它是属于哪一个模型。

第一种是y=f(x)，直接根据一个预测函数sgn(w^T+b)预测出标签值y来。

第二种是p(y|x)，算它的后验概率，根据特征x计算它属于每个类的概率，根据特征反推它所属的类，这就是后验概率。

②生成模型

对x、y联合分布建模，p(x,y)=p(x|y)p(y)，即假设x服从某种分布对p(x|y)、p(y)进行建模。

生成模型的另一种定义是用来生成数据的算法，如GAN。

判别模型和生成模型区别：

判别模型是求p(y|x)，生成模型是求p(x|y)。

学习的大部分的分类算法都是判别模型。

生成模型：贝叶斯分类器，高斯混合模型，隐马尔可夫模型，受限玻尔兹曼机，生成对抗网络等。
判别模型：决策树，kNN算法，人工神经网络，支持向量机，logistic回归，AdaBoost算法等（虽然logistic中用到概率了，但是它是直接计算的p(y|x)，即样本属于某类的概率，并没有假设x服从某种概率分布对p(x|y)、p(y)进行建模）。
在解决分类问题时是有本质区别的：

判别模型直接找一个分界线出来，至于两边样本服从哪一种分布，哪里密集哪里稀疏并不关注。生成模型是先算出两边样本服从的分布，再来算样本属于某个类的概率的。

评价指标：

因为要比较算法的优劣，所以引入评价指标。对于同一类问题可能有不同的算法都可以解决它，要判断哪一种算法更好，其中衡量的一个依据就是它的准确率或是叫精度，还有另一个指标是算法的速度。

对于分类和回归问题它的精度的定义是不一样的。

对于分类问题用准确率表示，即正确分类的样本数/测试样本总数，样本分为训练集和测试集，用测试集（和训练集不相交）来统计准确率，因为用训练集统计准确率是没有意义的。

回归误差是回归问题的评价指标，因为分类问题是一个是和否的问题，而回归问题它是一个连续实数值，不能用是和否来回答，所以用回归误差 SIGAI机器学习第四集基本概念。

准确率与回归误差：

机器学习

安科网

SIGAI机器学习第四集基本概念

playoffs

playoffs

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

playoffs

SIGAI机器学习第四集 基本概念

相关推荐

SIGAI机器学习第四集基本概念