如何构建真实世界可用的 ML 模型？

AJAXHu

2018-08-14

如何构建真实世界可用的 ML 模型？

如何构建真实世界可用的 ML 模型？

Python 作为当前机器学习中使用最多的一门编程语言，有很多对应的机器学习库，最常用的莫过于 scikit-learn 了。本文我们介绍下如何使用sklearn进行实时预测。先来看下典型的机器学习工作流。

如何构建真实世界可用的 ML 模型？

绿色方框圈出来的表示将数据切分为训练集和测试集。

红色方框的上半部分表示对训练数据进行特征处理，然后再对处理后的数据进行训练，生成 model。

红色方框的下半部分表示对测试数据进行特征处理，然后使用训练得到的 model 进行预测。

红色方框的右下角部分表示对模型进行评估，评估可以分为离线和在线。

如何构建真实世界可用的 ML 模型？

典型的 ML 模型

介绍完了典型的机器学习工作流了之后，来看下典型的 ML 模型。

import numpy as np

import pandas as pd

from sklearn.datasets import load_iris

from sklearn.ensemble import RandomForestClassifier

# 加载鸢尾花数据

iris = load_iris()

# 创建包含特征名称的 DataFrame

df = pd.DataFrame(iris.data, columns=iris.feature_names)

df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# 生成标记，切分训练集、测试集

df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75

train, test = df[df['is_train']==True], df[df['is_train']==False]

# 生成 X 和 y

features = df.columns[:4]

y = pd.factorize(train['species'])[0]

model = RandomForestClassifier(n_jobs=2)

# 训练模型

model.fit(train[features], y)

# 预测数据

model.predict(test[features])

上面的模型对鸢尾花数据进行训练生成一个模型，之后该模型对测试数据进行预测，预测结果为每条数据属于哪种类别。

如何构建真实世界可用的 ML 模型？

模型的保存和加载

上面我们已经训练生成了模型，但是如果我们程序关闭后，保存在内存中的模型对象也会随之消失，也就是说下次如果我们想要使用模型预测时，需要重新进行训练。如何解决这个问题呢？

很简单，既然内存中的对象会随着程序的关闭而消失，我们能不能将训练好的模型保存成文件。如果需要预测的话，直接从文件中加载生成模型呢？答案是可以的。

sklearn 提供了 joblib 模型，能够实现完成模型的保存和加载。

from sklearn.externals import joblib

# 保存模型到 model.joblib 文件

joblib.dump(model, "model.joblib" ,compress=1)

# 加载模型文件，生成模型对象

new_model = joblib.load("model.joblib")

new_pred_data = [[0.5, 0.4, 0.7, 0.1]]

# 使用加载生成的模型预测新样本

new_model.predict(new_pred_data)

如何构建真实世界可用的 ML 模型？

构建实时预测

前面说到的运行方式是在离线环境中运行，在真实世界中，我们很多时候需要在线实时预测。一种解决方案是将模型服务化，在我们这个场景就是，我告诉你一个鸢尾花的 sepal_length, sepal_width, petal_length, petal_width 之后，你能够快速告诉我这个鸢尾花的类型，借助 flask 等 web 框架，开发一个 web service，实现实时预测。

因为依赖于 flask 框架，没有安装的需要安装下：

pip install flask

创建一个 ml_web.py 文件，内容如下：

# coding=utf-8

from urlparse import urljoin

import flask

from flask import Flask, request, url_for, Response

from sklearn.externals import joblib

app = Flask(__name__)

# 加载模型

model = joblib.load("model.joblib")

@app.route("/", methods=["GET"])

def index():

with app.test_request_context():

# 生成每个函数监听的url以及该url的参数

result = {"predict_iris": {"url": url_for("predict_iris"),

"params": ["sepal_length", "sepal_width", "petal_length", "petal_width"]}}

result_body = flask.json.dumps(result)

return Response(result_body, mimetype="application/json")

@app.route("/ml/predict_iris", methods=["GET"])

def predict_iris():

request_args = request.args

# 如果没有传入参数，返回提示信息

if not request_args:

result = {

"message": "请输入参数：sepal_length, sepal_width, petal_length, petal_width"

}

result_body = flask.json.dumps(result, ensure_ascii=False)

return Response(result_body, mimetype="application/json")

# 获取请求参数

sepal_length = float(request_args.get("sepal_length", "-1"))

sepal_width = float(request_args.get("sepal_width", "-1"))

petal_length = float(request_args.get("petal_length", "-1"))

petal_width = float(request_args.get("petal_width", -1))

# 构建特征矩阵

vec = [[sepal_length, sepal_width, petal_length, petal_width]]

print("vec: {0}".format(vec))

# 生成预测结果

predict_result = int(model.predict(vec)[0])

print("predict_result: {0}".format(predict_result))

# 构造返回数据

result = {

"features": {

"sepal_length": sepal_length,

"sepal_width": sepal_width,

"petal_length": petal_length,

"petal_width": petal_width

},

"result": predict_result

}

result_body = flask.json.dumps(result, ensure_ascii=False)

return Response(result_body, mimetype="application/json")

if __name__ == "__main__":

app.run(port=8000)

在命令行启动它：

$ python ml_web.py

* Running on http://127.0.0.1:8000/ (Press CTRL+C to quit)

在 PostMan（也可以在浏览器中打开）中打开 http://127.0.0.1:8000/ml/predict_iris ，得到以下结果：

如何构建真实世界可用的 ML 模型？

可以看到，这里提示我们输入 sepal_length, sepal_width, petal_length, petal_width 参数，所以我们需要添加上参数重新构造一个请求 url：http://127.0.0.1:8000/ml/predict_iris?sepal_length=10&sepal_width=1&petal_length=3&petal_width=2。

再次请求得到的结果如下：

如何构建真实世界可用的 ML 模型？

可以看到，模型返回的结果为 2，也就是说模型认为这个鸢尾花的类别是 2。

如何构建真实世界可用的 ML 模型？

总结

在真实世界中，我们经常需要将模型进行服务化。这里我们借助 flask 框架，将 sklearn 训练后生成的模型文件加载到内存中，针对每次请求传入不同的特征来实时返回不同的预测结果。

作者：1or0，专注于机器学习研究。

声明：本文为公众号 AI派投稿，版权归对方所有。

机器学习 iris

AJAXHu

0 关注 0 粉丝 0 动态

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 2020-11-10

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

AJAXHu

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号