机器学习：选择机器学习模型

kunlong00

2018-10-04

关注关注

您选择的机器学习算法取决于数据的大小，质量和类型，以及项目时间表和总体目标。选择适当的机器学习算法，有助于从结果预测中获得的洞察力。

以下是开始机器学习项目时需要考虑的一些注意事项：

准确性：项目的目标是确定最准确的结果还是近似值满足您的项目需求？近似输出可以减少处理时间并保持大型数据集的高性能。
训练时间：所需的训练时间量因机器学习算法而异，也可能因所需的准确度而异。
线性：许多机器学习算法假设输入数据是线性的，这意味着这些模型将假设数据分类可以沿直线分开，或者数据遵循线性趋势。可以快速训练线性模型，但如果数据集实际上遵循非线性趋势，则假设基础数据是线性的可能导致精度降低。
特征：特征是数据集的属性（将其视为电子表格中的列标题），大量特征也会影响机器学习模型的性能。

机器学习算法的类型

在考虑了数据属性以及项目要求和目标后，您可以开始将这些需求映射到最佳机器学习模型。可以在下面找到几种不同类型的机器学习算法的描述：

线性回归

线性回归是一种受欢迎且经过充分研究的模型，可以快速训练，使其成为机器学习项目的良好起点。该算法可以提供准确的预测，但它假设数据线性（因此这可能不是非线性数据集的最佳模型）。如果可能且适合项目，应从数据集中删除异常值以提高速度和性能。线性回归模型将以连续的比例提供结果输出。

Logistic回归

机器学习：选择机器学习模型

与线性回归类似，逻辑回归通常可以快速训练并提供高度准确的结果，尤其是在移除不相关的特征或数据异常值时。与线性回归不同的是，使用逻辑回归模型得到的结果是使用非线性函数进行离散分类(即真或假、垃圾邮件或非垃圾邮件)，而不是提供连续的结果。

决策树

机器学习：选择机器学习模型

决策树模型具有表示各个变量的决策节点。这些决策节点分成另一个决策节点和叶节点或两个叶节点。叶节点代表决策的结果。这些输出用于进行未来预测。决策树模型几乎不需要数据准备，可以准确预测各种结果。

Bagging和随机森林

Bagging是一种基于训练数据集的多个样本的多个模型（通常是决策树）创建平均值的技术。所有模型都会运行新数据，并对预测进行平均，以提高输出精度。Bagging专注于最佳结果，而Random Forest使用随机性从决策节点生成次优分割。结合Bagging和随机森林模型的预测可以更好地估计真实的产出值，从而提高项目的准确性。

人工神经网络

机器学习：选择机器学习模型

人工神经网络是在人脑中学习后建模的。该技术可以用于复杂的模式识别。人工神经网络创建节点连接，通过一个到多个隐藏层将输入映射到输出。这在非线性环境中创建了复杂的特征检测器，用于识别通过人工分析无法预测的隐藏模式。

最后

没有一种机器学习算法能解决所有问题。您的项目目标和可用数据影响机器学习的最佳方法。顾问可以帮助指导您完成目标设定过程，以更好地确定机器学习模型以实现该目标。他们可以确定数据质量等潜在问题，并提出解决方案和实施方案以克服挑战。

机器学习线性回归决策树人工智能

安科网

机器学习：选择机器学习模型

kunlong00

机器学习算法的类型

最后

kunlong00

相关推荐

Python 用5行代码学机器学习—线性回归

选择困难终结者：不同问题之下的机器学习算法

用Python构建和可视化决策树

如何通过7个步骤构建机器学习模型

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

理解AI：为什么要在人工智能系统中寻求可解释性呢？

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

IT自动化和人工智能将在2021年走向何方?

强化学习到底是什么，它如何运作？

数字营销：AI如何“看透”人类行为模式？

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

机器学习新风暴：如何用ML模型预测房价？

LinkedIn开源Dagli，发布Java机器学习函数库

kunlong00