Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

jiaomrswang

2020-06-26

特性如下：

可线性伸缩至超过数百个节点；
实现亚秒级延迟处理；
可与Spark批处理和交互式处理无缝集成；
提供简单的API实现复杂算法；
更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。

原理

Spark在接收到实时输入数据流后，将数据划分成批次（divides the data into batches），然后转给Spark Engine处理，按批次生成最后的结果流（generate the final stream of results in batches）。

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

API

DStream

DStream（Discretized Stream，离散流）是Spark Stream提供的高级抽象连续数据流。

组成：一个DStream可看作一个RDDs序列。
核心思想：将计算作为一系列较小时间间隔的、状态无关的、确定批次的任务，每个时间间隔内接收的输入数据被可靠存储在集群中，作为一个输入数据集。

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

特性：一个高层次的函数式编程API、强一致性以及高校的故障恢复。
应用程序模板：

模板1

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

模板2

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

WordCount示例

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

Input DStream

Input DStream是一种从流式数据源获取原始数据流的DStream，分为基本输入源（文件系统、Socket、Akka Actor、自定义数据源）和高级输入源（Kafka、Flume等）。

Receiver：

每个Input DStream（文件流除外）都会对应一个单一的Receiver对象，负责从数据源接收数据并存入Spark内存进行处理。应用程序中可创建多个Input DStream并行接收多个数据流。
每个Receiver是一个长期运行在Worker或者Executor上的Task，所以会占用该应用程序的一个核（core）。如果分配给Spark Streaming应用程序的核数小于或等于Input DStream个数（即Receiver个数），则只能接收数据，却没有能力全部处理（文件流除外，因为无需Receiver）。

Spark Streaming已封装各种数据源，需要时参考官方文档。

Transformation Operation

常用Transformation

* map(func) ：对源DStream的每个元素，采用func函数进行转换，得到一个新的DStream；

* flatMap(func)：与map相似，但是每个输入项可用被映射为0个或者多个输出项；

* filter(func)：返回一个新的DStream，仅包含源DStream中满足函数func的项；

* repartition(numPartitions)：通过创建更多或者更少的分区改变DStream的并行程度；

* union(otherStream)：返回一个新的DStream，包含源DStream和其他DStream的元素；

* count()：统计源DStream中每个RDD的元素数量；

* reduce(func)：利用函数func聚集源DStream中每个RDD的元素，返回一个包含单元素RDDs的新DStream；

* countByValue()：应用于元素类型为K的DStream上，返回一个（K，V）键值对类型的新DStream，每个键的值是在原DStream的每个RDD中的出现次数；

* reduceByKey(func, [numTasks])：当在一个由(K,V)键值对组成的DStream上执行该操作时，返回一个新的由(K,V)键值对组成的DStream，每一个key的值均由给定的recuce函数（func）聚集起来；

* join(otherStream, [numTasks])：当应用于两个DStream（一个包含（K,V）键值对,一个包含(K,W)键值对），返回一个包含(K, (V, W))键值对的新DStream；

* cogroup(otherStream, [numTasks])：当应用于两个DStream（一个包含（K,V）键值对,一个包含(K,W)键值对），返回一个包含(K, Seq[V], Seq[W])的元组；

* transform(func)：通过对源DStream的每个RDD应用RDD-to-RDD函数，创建一个新的DStream。支持在新的DStream中做任何RDD操作。

updateStateByKey(func)

updateStateByKey可对DStream中的数据按key做reduce，然后对各批次数据累加
WordCount的updateStateByKey版本

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

transform(func)

通过对原DStream的每个RDD应用转换函数，创建一个新的DStream。
官方文档代码举例

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

Window operations

窗口操作：基于window对数据transformation（个人认为与Storm的tick相似，但功能更强大）。
参数：窗口长度（window length）和滑动时间间隔（slide interval）必须是源DStream批次间隔的倍数。
举例说明：窗口长度为3，滑动时间间隔为2；上一行是原始DStream，下一行是窗口化的DStream。

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

常见window operation

有状态转换包括基于滑动窗口的转换和追踪状态变化(updateStateByKey)的转换。

基于滑动窗口的转换

* window(windowLength, slideInterval) 基于源DStream产生的窗口化的批数据，计算得到一个新的DStream；

* countByWindow(windowLength, slideInterval) 返回流中元素的一个滑动窗口数；

* reduceByWindow(func, windowLength, slideInterval) 返回一个单元素流。利用函数func聚集滑动时间间隔的流的元素创建这个单元素流。函数func必须满足结合律，从而可以支持并行计算；

* reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks]) 应用到一个(K,V)键值对组成的DStream上时，会返回一个由(K,V)键值对组成的新的DStream。每一个key的值均由给定的reduce函数(func函数)进行聚合计算。注意：在默认情况下，这个算子利用了Spark默认的并发任务数去分组。可以通过numTasks参数的设置来指定不同的任务数；

* reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks]) 更加高效的reduceByKeyAndWindow，每个窗口的reduce值，是基于先前窗口的reduce值进行增量计算得到的；它会对进入滑动窗口的新数据进行reduce操作，并对离开窗口的老数据进行“逆向reduce”操作。但是，只能用于“可逆reduce函数”，即那些reduce函数都有一个对应的“逆向reduce函数”（以InvFunc参数传入）；

* countByValueAndWindow(windowLength, slideInterval, [numTasks]) 当应用到一个(K,V)键值对组成的DStream上，返回一个由(K,V)键值对组成的新的DStream。每个key的值都是它们在滑动窗口中出现的频率。

官方文档代码举例

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

join(otherStream, [numTasks])

连接数据流
官方文档代码举例1

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

官方文档代码举例2

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

Output Operation

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

缓存与持久化

通过persist()将DStream中每个RDD存储在内存。
Window operations会自动持久化在内存，无需显示调用persist()。
通过网络接收的数据流（如Kafka、Flume、Socket、ZeroMQ、RocketMQ等）执行persist()时，默认在两个节点上持久化序列化后的数据，实现容错。

flume zeromq kafka https twitter

jiaomrswang

0 关注 0 粉丝 0 动态

相关推荐

Flume基础（十一）：自定义 Interceptor

使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。　　在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。　　在该案例中，我们以端口数据模拟日志，以数字（单个）和

chenguangchun 2020-07-26

使用Flume

实例1: 监听端口,把输入端口的信息以日志的形式输出到控制台中。# 命名此代理上的组件。agent.channels = memoryChannel # Channel的名称。# 定义每个通道的类型。vim example.conf # 这个心启动

myt0 2020-07-18

切记，在进行flume监测文件时采用的是正则表达式

# Name the components on this agenta1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2. #此处若只写.log那么肯定不行啊，这样就只监测文件名称为.log的文件而不是后缀

IT影风 2020-07-18

Flume

在flume的安装目录下，创建文件夹data，在data中创建一个文件basic.conf，内容如下　　。执行agent-avro客户端指令，在flume的安装目录的bin目录下：a.txt是需要进行操作的文件，必须存在

chenguangchun 2020-06-28

大数据消息日志

scribe_百度百科https://baike.baidu.com/item/scribe flume（日志收集系统）_百度百科https://baike.baidu.com/item/flume/6250098 Kafka（科技术语）_百度百科

myt0 2020-06-16

Flume SinkProcessor

需求：flume1采集端口数据，发送给flume2或flume3。当flume2或3挂掉后，发送给另一台flume。flume1配置：NetCat Source -> Memory Channel -> Avro Sink

xiaoxiaojavacsdn 2020-06-08

flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。a)Source：采集组件，用于跟数据源对接，以获取数据。c)Channel：传输通道组件，用于从source将数据传递到sink. #因为要存到hdfs上，所以下沉组件位hdfs.

zzjmay 2020-06-07

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 2020-06-04

自定义Source sink

public class MySource extends AbstractSource implements Configurable, PollableSource {. 将写好的代码打包，并放到flume的lib目录下。[ flume]$ bin/f

ErixHao 2020-05-20

dockerfile动态修改服务配置文件

主要是利用命令envsubst能实现变量的替换并生成新得配置文件以及docker命令行的变量输入等。本次实验主要是编写flume镜像，并在容器启动时动态修改配置文件并启动，并向flume发数据，然后发给kafka。RUN rpm -i /root/jdk-

啦啦啦啦啦 2020-05-15

flume安装及ganglia使用

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、

wanfuchun 2020-05-14

Stream整合Flume

def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {. val sc: SparkContext = new SparkContext(spa

onwaygoahead 2020-05-05

Flume基础知识

sink负责将数据写入到指定的输出位置，根据输出目的地的不同，需要使用不同的sink。一个sink只能去一个channel取数据。是source和sink的连接，负责缓冲event，source将数据放入到channel，sink主动从channel取，当

xiaoxiaojavacsdn 2020-05-01

flume安装部署

c.将apache-flume-1.5.0-src文件夹中的内容全部复制到apache-flume-1.5.0-bin文件中

IT影风 2020-05-01

centos7安装flume

# -c conf：指定自带配置文件-f conf/tail-hdfs.conf:自定义配置文件 -n ag1：agent名称

chenguangchun 2020-04-18

Flume

# Flume 监控文本文件sink到kafka

wsong 2020-04-15

flume实时监控日志文件到hdfs

#上传文件的前缀。#重新定义时间单位。#是否使用本地时间戳。#积攒多少个Event才flush到HDFS一次。#设置文件类型，可支持压缩。#多久生成一个新的文件。#文件的滚动与Event数量无关。# Use a channel which buffers

QAnyang 2020-03-14

Flume + Kafka系统搭建

A、启动Kafka集群。bin/flume-ng agent -n a1 -c conf -f conf/fl.conf -Dflume.root.logger=DEBUG,console. bin/kafka-console-consumer.sh --

wsong 2020-03-13

大数据开发:(三)flume上传HDFS

如果jps查看缺少了某个节点，首先查看xml文件是否正确，如果正确，删除hadoop/tmp文件夹，然后再次格式化，，再次启动。将flume文件下得conf中flume-env.ps1.template复制一份，改为flume-env.ps1. 修改con

硅步至千里 2020-02-22

大数据 hadoop ---- Sqoop、flume、chukwa

Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop，类似于其他ET

硅步至千里 2020-02-18

jiaomrswang

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号