特征工程介绍

1. 特征定义

为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而使机器学习流程输出更高质量的结果。

2. 机器学习流程

2.1 数据

  数据是对现实世界的现象的观测。

2.2 任务

  收集数据的原因。

2.3 模型

  数据的数学模型描述了数据不同部分之间的关系。

2.4 特征

  特征是原始数据的数值表示。

2.5 模型评价

  模型与特征相辅相成,对其中一个的选择会影响另一个。好的特征可以使随后的建模步骤更容易,最后得出的模型也能更好的完成所需的任务。

3. 特征工程

特征工程就是在给定数据、模型和任务的情况下设计出最合适的特征的过程。

4. 参考文献

《精通特征工程》

相关推荐