如何使用PySpark来利用机器学习模型对流数据进行预测？

unitykwdo

2020-01-06

全文共6787字，预计学习时长20分钟

如何使用PySpark来利用机器学习模型对流数据进行预测？

来源：Pexels

如何使用PySpark来利用机器学习模型对流数据进行预测？

概述

流数据是一个在机器学习领域蓬勃发展的概念
学习如何使用PySpark来利用机器学习模型对流数据进行预测
我们将介绍流数据和Spark Streaming的基础知识，然后深入到实现部分

如何使用PySpark来利用机器学习模型对流数据进行预测？

引言

想象一下——每一秒都有8,500多条推文发布，900多张照片被上传到Instagram，4,200多个Skype呼叫，78,000多次Google搜索，以及200多万封电子邮件被发送（数据来自InternetLive Stats）。

我们正在以前所未有的速度和规模生产数据。这是在数据科学领域工作的大好时候！但是有了大量的数据后，接踵而至的是复杂的挑战。

首要，如何收集大规模的数据？如何确保一旦生成并收集数据，机器学习管道就会继续产生结果？这些都是业界面临的重大挑战，以及为什么流数据的概念在企业中越来越受到关注。

如何使用PySpark来利用机器学习模型对流数据进行预测？

增加处理流数据的能力将极大地扩展当前的数据科学产品投资组合。这是业界急需的技能，若能熟练掌握它，将帮助你担负起下一个数据科学角色。

因此，在本文中，我们将学习什么是流数据，了解Spark Streaming的基础知识，然后在一个业界相关的数据集上使用Spark实现流数据。

如何使用PySpark来利用机器学习模型对流数据进行预测？

目录

1. 什么是流数据？

2. Spark Streaming的基础知识

3. 离散流

4. 缓存

5. 检查点

6. 流数据的共享变量

7. 累加器变量

8. 广播变量

9. 使用PySpark对流数据进行情感分析

如何使用PySpark来利用机器学习模型对流数据进行预测？

什么是流数据？

社交媒体产生的数据是惊人的。你敢于想象存储所有数据需要些什么吗？这是一个复杂的过程！因此，在深入探讨本文的Spark方面之前，先来理解什么是流数据。

流数据没有离散的开始或结束。这些数据是每秒从数千个数据源中生成的，它们需要尽快进行处理和分析。大量流数据需要实时处理，例如Google搜索结果。

我们知道，在事件刚发生时一些见解会更有价值，而随着时间的流逝它们会逐渐失去价值。以体育赛事为例——我们希望看到即时分析，即时统计见解，在那一刻真正享受比赛，对吧？

例如，假设你正在观看一场罗杰·费德勒（Roger Federer）对战诺瓦克·乔科维奇（Novak Djokovic）的激动人心的网球比赛。

这场比赛两局打平，你想了解与费德勒的职业平均水平相比，其反手发球的百分比。是在几天之后看到有意义，还是在决胜局开始前的那一刻看到有意义呢？

如何使用PySpark来利用机器学习模型对流数据进行预测？

来源：Pexels

如何使用PySpark来利用机器学习模型对流数据进行预测？

Spark Streaming的基础知识

Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩和容错流处理。

在转到实现部分之前，先了解一下Spark Streaming的不同组成部分。

离散流

离散流（Dstream）是一个连续的数据流。对于离散流，其数据流可以直接从数据源接收，也可以在对原始数据进行一些处理后接收。

构建流应用程序的第一步是定义要从中收集数据的数据资源的批处理持续时间。如果批处理持续时间为2秒，则将每2秒收集一次数据并将其存储在RDD中。这些RDD的连续序列链是一个DStream，它是不可变的，可以通过Spark用作一个分布式数据集。

如何使用PySpark来利用机器学习模型对流数据进行预测？

考虑一个典型的数据科学项目。在数据预处理阶段，我们需要转换变量，包括将分类变量转换为数字变量，创建分箱，去除异常值和很多其他的事。Spark保留了在数据上定义的所有转换的历史记录。因此，无论何时发生故障，它都可以追溯转换的路径并重新生成计算结果。

我们希望Spark应用程序7 x 24小时持续运行。并且每当故障发生时，我们都希望它能尽快恢复。但是，在大规模处理数据的同时，Spark需要重新计算所有转换以防出现故障。可以想象，这样做的代价可能会非常昂贵。

缓存

这是应对该挑战的一种方法。我们可以暂时存储已计算（缓存）的结果，以维护在数据上定义的转换的结果。这样，当发生故障时，就不必一次又一次地重新计算这些转换。

DStreams允许将流数据保留在内存中。当我们要对同一数据执行多种运算时，这很有用。

检查点

高速缓存在正常使用时非常有用，但是它需要大量内存。并不是每个人都有数百台具有128 GB内存的计算机来缓存所有内容。

检查点的概念能够有所帮助。

检查点是另一种保留转换后的数据框结果的技术。它将不时地将正在运行的应用程序的状态保存在任何可靠的存储介质（如HDFS）上。但是，它比缓存慢，灵活性也更差。

在拥有流数据时可以使用检查点。转换结果取决于先前的转换结果，并且需要保存以供使用。此外，我们还存储检查点元数据信息，例如用于创建流数据的配置以及一系列DStream操作的结果等。

如何使用PySpark来利用机器学习模型对流数据进行预测？

流数据的共享变量

有时候需要为必须在多个集群上执行的Spark应用程序定义诸如map，reduce或filter之类的函数。在函数中使用的变量会被复制到每台机器（集群）中。

在这种情况下，每个集群都有一个不同的执行器，我们想要一些可以赋予这些变量之间关系的东西。

例如：假设Spark应用程序在100个不同的集群上运行，它们捕获了来自不同国家的人发布的Instagram图片。

现在，每个集群的执行者将计算该特定集群上的数据的结果。但是我们需要一些帮助这些集群进行交流的东西，以便获得汇总结果。在Spark中，我们拥有共享变量，这些变量使此问题得以克服。

累加器变量

用例包括发生错误的次数，空白日志的数量，我们从特定国家收到请求的次数——所有这些都可以使用累加器解决。

每个集群上的执行程序将数据发送回驱动程序进程，以更新累加器变量的值。累加器仅适用于关联和可交换的运算。例如，对求和和求最大值有用，而求平均值不起作用。

如何使用PySpark来利用机器学习模型对流数据进行预测？

广播变量

当我们使用位置数据（例如城市名称和邮政编码的映射）时，这些是固定变量，是吧？现在，如果每次在任意集群上的特定转换都需要这种类型的数据，我们不需要向驱动程序发送请求，因为它会太昂贵。

相反，可以在每个集群上存储此数据的副本。这些类型的变量称为广播变量。

广播变量允许程序员在每台计算机上保留一个只读变量。通常，Spark使用高效的广播算法自动分配广播变量，但是如果有任务需要多个阶段的相同数据，也可以定义它们。

如何使用PySpark来利用机器学习模型对流数据进行预测？

如何使用PySpark来利用机器学习模型对流数据进行预测？

使用PySpark对流数据进行情感分析

是时候启动你最喜欢的IDE了！让我们在本节中进行编码，并以实践的方式理解流数据。

理解问题陈述

在本节我们将使用真实数据集。我们的目标是检测推文中的仇恨言论。为了简单起见，如果一条推文包含带有种族主义或性别歧视情绪的言论，我们就认为该推文包含仇恨言论。

因此，任务是将种族主义或性别歧视的推文从其他推文中区分出来。我们将使用包含推文和标签的训练样本，其中标签“1”表示推文是种族主义/性别歧视的，标签“0”则表示其他种类。

如何使用PySpark来利用机器学习模型对流数据进行预测？

来源：TechCrunch

为什么这是一个与主题相关的项目？因为社交媒体平台以评论和状态更新的形式接收庞大的流数据。该项目将帮助我们审核公开发布的内容。

设置项目工作流程

1. 模型构建：构建逻辑回归模型管道，对推文中是否包含仇恨言论进行分类。在这里，我们的重点不是建立一个完全准确的分类模型，而是了解如何在流数据上使用任意模型并返回结果

2. 初始化Spark Streaming的环境：一旦模型构建完成，需要定义获取流数据的主机名和端口号

3. 流数据：接下来，从定义的端口添加来自netcat服务器的推文，SparkStreaming API将在指定的持续时间后接收数据

4. 预测并返回结果：一旦接收到推文，就将数据传递到创建的机器学习管道中，并从模型中返回预测的情绪

这是对工作流程的简洁说明：

如何使用PySpark来利用机器学习模型对流数据进行预测？

训练数据以建立逻辑回归模型

我们在一个CSV文件中存储推文数据及其相应的标签。使用逻辑回归模型来预测推文是否包含仇恨言论。如果是，则模型预测标签为1（否则为0）。你可以参考“面向初学者的PySpark”来设置Spark环境。

可以在这里下载数据集和代码。

首先，需要定义CSV文件的模式。否则，Spark会将每列数据的类型都视为字符串。读取数据并检查模式是否符合定义：

# importing required libraries
from pyspark import SparkContext
from pyspark.sql.session import SparkSession
from pyspark.streaming import StreamingContext
import pyspark.sql.types as tp
from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer, OneHotEncoderEstimator, VectorAssembler
from pyspark.ml.feature import StopWordsRemover, Word2Vec, RegexTokenizer
from pyspark.ml.classification import LogisticRegression
from pyspark.sql import Row
# initializing spark session
sc = SparkContext(appName="PySparkShell")
spark = SparkSession(sc)
# define the schema
my_schema = tp.StructType([
tp.StructField(name='id', dataType= tp.IntegerType(), nullable=True),
tp.StructField(name='label', dataType= tp.IntegerType(), nullable=True),
tp.StructField(name='tweet', dataType= tp.StringType(), nullable=True)
])
# read the dataset
my_data = spark.read.csv('twitter_sentiments.csv',
schema=my_schema,
header=True)
# view the data
my_data.show(5)
# print the schema of the file
my_data.printSchema()

如何使用PySpark来利用机器学习模型对流数据进行预测？

如何使用PySpark来利用机器学习模型对流数据进行预测？

定义机器学习管道的各个阶段

现在已经将数据保存在Spark数据框中，需要定义转换数据的不同阶段，然后使用它从模型中获取预测的标签。

在第一阶段，使用RegexTokenizer将推特文本转换为单词列表。然后，从单词列表中删除停用词并创建词向量。在最后阶段，使用这些词向量来构建逻辑回归模型并获得预测的情绪。

记住——重点不是建立一个完全准确的分类模型，而是要看看如何在流数据上使用预测模型来获取结果。

如何使用PySpark来利用机器学习模型对流数据进行预测？

# define stage 1: tokenize the tweet text
stage_1 = RegexTokenizer(inputCol='tweet' , outputCol='tokens', pattern='\\W')
# define stage 2: remove the stop words
stage_2 = StopWordsRemover(inputCol='tokens', outputCol='filtered_words')
# define stage 3: create a word vector of the size 100
stage_3 = Word2Vec(inputCol='filtered_words', outputCol='vector', vectorSize=100)
# define stage 4: Logistic Regression Model
model = LogisticRegression(featuresCol='vector', labelCol='label')

设置机器学习管道

让我们在Pipeline对象中添加阶段，然后按顺序执行这些转换。用训练数据集拟合管道，现在，每当有了新的推文，只需要将其传递给管道对象并转换数据即可获取预测：

# setup the pipeline
pipeline = Pipeline(stages= [stage_1, stage_2, stage_3, model])
# fit the pipeline model with the training data
pipelineFit = pipeline.fit(my_data)

流数据和返回结果

假设每秒收到数百条评论，我们希望通过阻止用户发布仇恨言论来保持平台整洁。因此，每当我们收到新文本，都会将其传递到管道中并获得预测的情绪。

我们将定义一个函数get_prediction，该函数将删除空白句子并创建一个数据框，其中每一行都包含一条推文。

初始化Spark Streaming的环境并定义3秒的批处理持续时间。这意味着我们将对每3秒收到的数据进行预测：

# define a function to compute sentiments of the received tweets
defget_prediction(tweet_text):
try:
# filter the tweets whose length is greater than 0
tweet_text = tweet_text.filter(lambda x: len(x) >0)
# create a dataframe with column name 'tweet' and each row will contain the tweet
rowRdd = tweet_text.map(lambda w: Row(tweet=w))
# create a spark dataframe
wordsDataFrame = spark.createDataFrame(rowRdd)
# transform the data using the pipeline and get the predicted sentiment
pipelineFit.transform(wordsDataFrame).select('tweet','prediction').show()
except :
print('No data')
# initialize the streaming context
ssc = StreamingContext(sc, batchDuration=3)
# Create a DStream that will connect to hostname:port, like localhost:9991
lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))
# split the tweet text by a keyword 'TWEET_APP' so that we can identify which set of words is from a single tweet
words = lines.flatMap(lambda line : line.split('TWEET_APP'))
# get the predicted sentiments for the tweets received
words.foreachRDD(get_prediction)
# Start the computation
ssc.start()
# Wait for the computation to terminate
ssc.awaitTermination()

在一个终端上运行该程序，然后使用Netcat（用于将数据发送到定义的主机名和端口号的实用工具）。你可以使用以下命令启动TCP连接：

nc -lk port_number

最后，在第二个终端中键入文本，你将在另一个终端中实时获得预测。

完美！

如何使用PySpark来利用机器学习模型对流数据进行预测？

结语

流数据在未来几年只会越来越热门，因此应该真正开始熟悉这一主题。请记住，数据科学不只是建立模型——整个流程都需要关注。

本文介绍了SparkStreaming的基础知识以及如何在真实的数据集上实现它。我鼓励大家使用另一个数据集或抓取实时数据来实现刚刚介绍的内容（你也可以尝试其他模型）。

期待在下面的评论区听取你对本文的反馈以及想法。

如何使用PySpark来利用机器学习模型对流数据进行预测？

如何使用PySpark来利用机器学习模型对流数据进行预测？

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

机器学习 spark 大数据预测模型来利

unitykwdo

0 关注 0 粉丝 0 动态

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 2020-10-30

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

机器学习技术之什么是集成学习？

什么是集成学习?简而言之，集成学习是训练多个机器学习模型并将其输出组合在一起的过程。组织以不同的模型为基础，致力构建一个最优的预测模型。组合各种不同的机器学习模型可以提高整体模型的稳定性，从而获得更准确的预测结果。集成学习模型通常比单个模型更可靠，因此，它

chenyuping 2020-11-06

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

unitykwdo

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号