机器学习项目必备：端到端机器学习项目开发过程的任务表

liukecun0

2020-08-03

关注关注

本文转载自公众号“读芯术”(ID：AI_Discovery)。

在创建具有重大意义的项目时，我会记录所有在其他人身上学到的以及自己在工作中领悟到的东西。这对我来说是必须的，因为需要处理一个项目中的许多内容(争论、准备、问题、模型、微调等等)，这容易让人忘记一些事情。

任务列表能指导开发人员完成下一步，促使你检查每个任务是否已成功执行。有时候，我们很难找到出发点，任务表也可帮助开发人员从正确的来源中获取正确的信息(数据)，以便建立关系并揭示相关的见解。

机器学习项目必备：端到端机器学习项目开发过程的任务表

最好的做法是让项目的每一部分都经过检查。正如阿图·葛文德在其《清单革命》(The Checklist Manifesto)中所说：“我们所知事物的数量和其复杂性已经超过了我们能正确、安全、可靠地传达其优点的能力范畴。”

所以，看看这个简洁明了的项目任务表，它将帮你减少工作量，提高产出!

机器学习项目清单

在几乎每个机器学习项目中都必须执行8-10个步骤，其中一些步骤可以按顺序交替执行。

1. 从高层次的角度定义问题

为了理解和阐明问题的业务逻辑，任务表应该告知：

问题的性质(有监督/无监督、分类/回归)。
可开发的解决方案类型。
应该使用哪些指标来衡量性能?
机器学习是解决这个问题的正确方法吗?
人工解决问题的方法。
问题的固有假设。

2. 识别数据源并获取数据

在大多数情况下，如果拥有数据，并且希望定义相关问题以更好地利用传入的数据，可以在第一步之前执行此步骤。

基于问题的定义，我们需要确定数据的来源，可以是数据库、数据存储库、传感器等。对于要在生产中部署的应用程序，需通过开发数据管道来自动执行此步骤，以保持传入数据流入系统。

列出所需数据的来源和数量。
检查空间是否会成为一个问题。
检查你在使用数据上是否被授权。
获取数据并将其转换为可行的格式。
检查数据类型(文本、分类、数字、时间序列、图像)。
取一个样本用于最终测试。

机器学习项目必备：端到端机器学习项目开发过程的任务表

图源：unsplash

3. 数据的初步探索

在这一步骤中会发现所有对研究结果、预测以及目标有影响的数据特征。如果你有一个巨大的数据块，在该步骤中对其进行抽样，使分析更易于管理。应遵循以下步骤：

使用jupyter notebook，因为它们为研究数据提供了一个简单直观的界面。
确定目标变量。
识别特征类型(分类、数字、文本等)。
分析特征之间的相关性。
添加一些数据可视化，以便于解释每个特征对目标变量的影响。
记录发现。

4. 探索性数据分析，以准备数据

是时候通过定义用于数据转换、清理、特征选择/设计和缩放的函数来执行前一步的发现了。

编写函数，以转换数据，自动化处理即将出现的大批量数据。
编写函数，以清理数据(输入缺失值和处理异常值)。
编写函数，以选择并设计特征——删除冗余的特征、特征的格式转换以及和其他数学转换。
特征缩放——标准化特征。

图源：unsplash

5. 开发一个基准模型并探索其他模型以筛选最佳模型

创建一个非常基础的模型，作为所有其他复杂机器学习模型的基线。按照以下步骤：

使用默认参数，训练一些常用的机器学习模型，如朴素贝叶斯、线性回归、支持向量机(SVM)等。
利用基线和其他模型，测量并比较每个模型的性能。
每个模型部署N折交叉验证(N-fold cross-validation)，并计算N个折叠上性能指标的平均值和标准差。
研究对目标影响最大的特征。
分析模型在预测时出错的类型。
以不同的方式设计特征。
多次重复上述步骤(反复试验)，确保以正确的格式使用正确的特征。
基于性能衡量标准列出最佳模型。

6. 微调入围模型，检查集成方法

这是关键步骤之一，在此步骤中将更接近最终解决方案。主要步骤应包括：

使用交叉验证进行超参数调整。
使用自动调整方法，如随机搜索或网格搜索，为最佳模型找到最佳配置。
测试集成方法，如投票分类器等。
用尽可能多的数据测试模型。
完成后，使用一开始抛之一侧的测试样本，来检查是否过拟合或欠拟合。

7. 记录代码并传达解决方案

沟通的过程是多方面的，请时刻牢记所有现有的和潜在的利益相关者。主要步骤包括：

记录代码以及整个项目的完成方法和过程。
创建一个简明的仪板或一个具有深刻见解的演示文稿，其应具有接近自我解释的可视化效果。
撰写博客/报告，记录如何分析特征、测试不同的转换等，记录学习成果(失败和有效的技巧)。
总结主要成果和未来蓝图(如有)。

8. 在生产中部署模型和监视器

如果项目需要在实时数据上测试部署，应该创建一个web应用程序或REST API，以便在所有平台(web、android、iOS)上使用。主要步骤(因项目而异)包括：

将最终训练的模型保存到h5或pickle文件中。
使用web服务为模型服务，可以使用Flask开发这些web服务。
连接输入数据源并设置ETL管道。
使用pipenv、docker/Kubernetes(基于扩展需求)管理依赖关系。
可以使用AWS、Azure或Google云平台来部署服务。
监控实时数据的性能，或让人们将你的模型与他们的数据一起使用。

图源：unsplash

机器学习端到端

安科网

机器学习项目必备：端到端机器学习项目开发过程的任务表

liukecun0

liukecun0

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

liukecun0