Spark Streaming整合Flume

IT影风

2019-11-02

关注关注

1 目的

Spark Streaming整合Flume。参考官方整合文档（http://spark.apache.org/docs/2.2.0/streaming-flume-integration.html）

2 整合方式一：基于推

2.1 基本要求

flume和spark一个work节点要在同一台机器上，flume会在本机器上通过配置的端口推送数据
streaming应用必须先启动，receive必须要先监听推送数据的端口后，flume才能推送数据
添加如下依赖

groupId = org.apache.spark
 artifactId = spark-streaming-flume_2.11
 version = 2.2.0

2.2 配置Flume

我们知道flume 的使用就是如何配置它的配置文件，使用本地的netcat source来模拟数据，本次配置如下：

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop
a1.sources.r1.port = 5900

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop
a1.sinks.k1.port = 5901
#a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
#a1.channels.c1.capacity = 1000
#a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2.3 在服务器上运行

思路如下：

用maven打包工程
使用saprk-submit提交
开启flume
发送模拟数据
验证

验证代码如下：功能简单的做一个单词统计：

package flume_streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.flume.FlumeUtils
import org.apache.spark.streaming.{Durations, StreamingContext}

/**
 * @Author: SmallWild
 * @Date: 2019/11/2 9:42
 * @Desc: 基于flumePushWordCount
 */
object flumePushWordCount {
  def main(args: Array[String]): Unit = {
    if (args.length != 2) {
      System.err.println("错误参数，用法：flumePushWordCount <hostname> <port>")
      System.exit(1)
    }
    //传入参数
    val Array(hostname, port) = args
    //一定不能使用local[1]
    val sparkConf = new SparkConf() //.setMaster("local[2]").setAppName("kafkaDirectWordCount")
    val ssc = new StreamingContext(sparkConf, Durations.seconds(5))
    //设置日志级别
    ssc.sparkContext.setLogLevel("WARN")
    //TODO 简单的进行单词统计
    val flumeStream = FlumeUtils.createStream(ssc, hostname, port.toInt)
    flumeStream.map(x => new String(x.event.getBody.array()).trim)
      .flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).print()
    ssc.start()
    ssc.awaitTermination()
  }
}

验证具体步骤如下：

1）打包工程
 mvn clean package -DskipTest
 2)spark-submit提交（这里使用local模式）
 ./spark-submit --class flume_streaming.flumePushWordCount /
 --master local[2] /
 --packages org.apache.spark:spark-streaming-flume_2.11:2.2.0 /
 /smallwild/app/SparkStreaming-1.0.jar hadoop 5901
 3）开启flume
 flume-ng agent --name simple-agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf -Dflume.root.logger=INFO,console
 4）发送模式数据
 这里使用本地5900端口发送数据
 telnet hadoop 5900
 5）验证
 查看streaming应用程序是否能出现对应的单词计数字样

验证结果：能正确统计从端口发送过来的某一批次的单词的数量

Spark Streaming整合Flume

3 整合方式二：基于拉（常用）

这种方式和上面基本一致

3.1 注意事项

先启动flume
使用自定义的sink，streaming主动去拉取数据，数据会先存放在缓冲区
事务保障机制，副本机制和数据被接收（Transactions succeed only after data is received and replicated by Spark Streaming.）
高容错保证

添加如下依赖

groupId = org.apache.spark
 artifactId = spark-streaming-flume-sink_2.11
 version = 2.2.0

 groupId = org.scala-lang
 artifactId = scala-library
 version = 2.11.8

 groupId = org.apache.commons
 artifactId = commons-lang3
 version = 3.5

3.2 配置Flume

和前面差别在配置sink，需要使用自定义的sink

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop
a1.sources.r1.port = 5900

# Describe the sink
a1.sinks.k1.type = org.apache.spark.streaming.flume.sink.SparkSink
a1.sinks.k1.hostname = hadoop
a1.sinks.k1.port = 5901
#a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
#a1.channels.c1.capacity = 1000
#a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

3.3 在服务上运行

业务逻辑大致和前面一样，这里使用下面的类

import org.apache.spark.streaming.flume._

 val flumeStream = FlumeUtils.createPollingStream(streamingContext, [sink machine hostname], [sink port])

3.4 提交验证

思路如下：

用maven打包工程
开启flume
使用saprk-submit提交
发送模拟数据
验证

和前面基本一致

4 总结

整理两种整合flume的实践。

flume apache

IT影风

0 关注 0 粉丝 0 动态

关注关注

Flume基础（十一）：自定义 Interceptor

使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。　　在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。　　在该案例中，我们以端口数据模拟日志，以数字（单个）和

chenguangchun 2020-07-26

使用Flume

实例1: 监听端口,把输入端口的信息以日志的形式输出到控制台中。# 命名此代理上的组件。agent.channels = memoryChannel # Channel的名称。# 定义每个通道的类型。vim example.conf # 这个心启动

myt0 2020-07-18

切记，在进行flume监测文件时采用的是正则表达式

# Name the components on this agenta1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2. #此处若只写.log那么肯定不行啊，这样就只监测文件名称为.log的文件而不是后缀

IT影风 2020-07-18

Flume

在flume的安装目录下，创建文件夹data，在data中创建一个文件basic.conf，内容如下　　。执行agent-avro客户端指令，在flume的安装目录的bin目录下：a.txt是需要进行操作的文件，必须存在

chenguangchun 2020-06-28

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。Spark在接收到实时输入数据流后，将数据

jiaomrswang 2020-06-26

大数据消息日志

scribe_百度百科https://baike.baidu.com/item/scribe flume（日志收集系统）_百度百科https://baike.baidu.com/item/flume/6250098 Kafka（科技术语）_百度百科

myt0 2020-06-16

Flume SinkProcessor

需求：flume1采集端口数据，发送给flume2或flume3。当flume2或3挂掉后，发送给另一台flume。flume1配置：NetCat Source -> Memory Channel -> Avro Sink

xiaoxiaojavacsdn 2020-06-08

flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。a)Source：采集组件，用于跟数据源对接，以获取数据。c)Channel：传输通道组件，用于从source将数据传递到sink. #因为要存到hdfs上，所以下沉组件位hdfs.

zzjmay 2020-06-07

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 2020-06-04

自定义Source sink

public class MySource extends AbstractSource implements Configurable, PollableSource {. 将写好的代码打包，并放到flume的lib目录下。[ flume]$ bin/f

ErixHao 2020-05-20

dockerfile动态修改服务配置文件

主要是利用命令envsubst能实现变量的替换并生成新得配置文件以及docker命令行的变量输入等。本次实验主要是编写flume镜像，并在容器启动时动态修改配置文件并启动，并向flume发数据，然后发给kafka。RUN rpm -i /root/jdk-

啦啦啦啦啦 2020-05-15

flume安装及ganglia使用

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、

wanfuchun 2020-05-14

Stream整合Flume

def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {. val sc: SparkContext = new SparkContext(spa

onwaygoahead 2020-05-05

Flume基础知识

sink负责将数据写入到指定的输出位置，根据输出目的地的不同，需要使用不同的sink。一个sink只能去一个channel取数据。是source和sink的连接，负责缓冲event，source将数据放入到channel，sink主动从channel取，当

xiaoxiaojavacsdn 2020-05-01

flume安装部署

c.将apache-flume-1.5.0-src文件夹中的内容全部复制到apache-flume-1.5.0-bin文件中

IT影风 2020-05-01

centos7安装flume

# -c conf：指定自带配置文件-f conf/tail-hdfs.conf:自定义配置文件 -n ag1：agent名称

chenguangchun 2020-04-18

Flume

# Flume 监控文本文件sink到kafka

wsong 2020-04-15

flume实时监控日志文件到hdfs

#上传文件的前缀。#重新定义时间单位。#是否使用本地时间戳。#积攒多少个Event才flush到HDFS一次。#设置文件类型，可支持压缩。#多久生成一个新的文件。#文件的滚动与Event数量无关。# Use a channel which buffers

QAnyang 2020-03-14

Flume + Kafka系统搭建

A、启动Kafka集群。bin/flume-ng agent -n a1 -c conf -f conf/fl.conf -Dflume.root.logger=DEBUG,console. bin/kafka-console-consumer.sh --

wsong 2020-03-13

大数据开发:(三)flume上传HDFS

如果jps查看缺少了某个节点，首先查看xml文件是否正确，如果正确，删除hadoop/tmp文件夹，然后再次格式化，，再次启动。将flume文件下得conf中flume-env.ps1.template复制一份，改为flume-env.ps1. 修改con

硅步至千里 2020-02-22

安科网

Spark Streaming整合Flume

IT影风

1 目的

2 整合方式一：基于推

2.1 基本要求

2.2 配置Flume

2.3 在服务器上运行

3 整合方式二：基于拉（常用）

3.1 注意事项

3.2 配置Flume

3.3 在服务上运行

3.4 提交验证

4 总结

IT影风

相关推荐

Flume基础（十一）：自定义 Interceptor

使用Flume

切记，在进行flume监测文件时采用的是正则表达式

Flume

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

大数据消息日志

Flume SinkProcessor

flume

Flume-0.9.4和Hbase-0.96整合

自定义Source sink

dockerfile动态修改服务配置文件

flume安装及ganglia使用

Stream整合Flume

Flume基础知识

flume安装部署

centos7安装flume

Flume

flume实时监控日志文件到hdfs

Flume + Kafka系统搭建

大数据开发:(三)flume上传HDFS

IT影风