第六章---机器学习与数据建模

学习:通过接收到的数据,归纳提取相同与不同

机器学习: 让计算机以数据为基础,进行归纳与总结

模型:数据解释现象的系统

机器学习:

1.监督学习(机器学习的过程有标注:相当于告诉模型,在什么样的数据特征下应该输出什么样的结果,机器学习的任务就是提炼出输入与标注间的关系,并进行预测)

根据标注是离散值还是连续值,监督学习可分为分类问题和回归问题

1)分类(标注是离散值)

2)回归(标注是连续值)

2.非监督学习(机器学习的过程无标注,完全让数据自己说话,将数据自身的特征在不同的模型中进行不同的表现)

1)聚类

2)关联

3.半监督学习(部分有标注,部分没有标注,有标注的数据可以作用于没有标注的数据,规范与引导聚类或者关联的方向,同时没有标注的数据也可作用于有标注的数据,时刻获得模型对于数据整体情况的影响和反馈)

数据集:训练集、测试集、验证集(6:2:2)

第六章---机器学习与数据建模

测试集:通过训练集和测试集的出最优模型后,使用测试集进行模型的预测,用来衡量这个模型的性能和分类能力,即可以把测试集当做从来不存在的数据集,当已经确定模型的参数后,使用测试集进行模型的泛化能力的评价

泛化:对未知数据的预测能力

模型面对训练集和测试集以外的未知数据或者实际场景的数据时预测能力的大小,如果一个模型在训练集和验证集表现良好,而测试集表现不好,那么该模型的泛化能力就比较差,这种现象也叫做过拟合现象,一份数据集切分成训练集,测试集,验证集的方法也叫作交叉验证。

相关推荐