【2020/2/13】寒假自学——学习进度报告16

电脑修好了,但之前落下的几天博客确实没啥补的劲头,今天先写一份报告吧。


实验内容和要求

安装 Flume

 【2020/2/13】寒假自学——学习进度报告16

安装成功。

使用 Avro 数据源测试 Flume

配置文件

【2020/2/13】寒假自学——学习进度报告16

【2020/2/13】寒假自学——学习进度报告16

启动flume agent a1

【2020/2/13】寒假自学——学习进度报告16

创建指定的日志文件

【2020/2/13】寒假自学——学习进度报告16

客户端传输

【2020/2/13】寒假自学——学习进度报告16

传输完成

 使用 netcat 数据源测试 Flume

创建example.conf

【2020/2/13】寒假自学——学习进度报告16

启动flume

【2020/2/13】寒假自学——学习进度报告16

启动Telnet

【2020/2/13】寒假自学——学习进度报告16

 【2020/2/13】寒假自学——学习进度报告16

Hellowworld

【2020/2/13】寒假自学——学习进度报告16

使用 Flume 作为 Spark Streaming 数据源

配置文件【2020/2/13】寒假自学——学习进度报告16

拷贝依赖包【2020/2/13】寒假自学——学习进度报告16

修改spark-env.sh添加环境变量【2020/2/13】寒假自学——学习进度报告16

编写python程序

import sys



from pyspark import SparkContext

from pyspark.streaming import StreamingContext

from pyspark.streaming.flume import FlumeUtils

import pyspark



if __name__ == "__main__":

    if len(sys.argv) != 3:

        print("Usage: flume_wordcount.py <hostname> <port>", file=sys.stderr)

        exit(-1)



    sc = SparkContext(appName="FlumeEventCount")

    ssc = StreamingContext(sc, 2)



    hostname = sys.argv[1]

    port = int(sys.argv[2])

    stream = FlumeUtils.createStream(ssc, hostname, port, pyspark.StorageLevel.MEMORY_AND_DISK_SER_2)

    stream.count().map(lambda cnt: "Recieve " + str(cnt) + " Flume events!!!!").pprint()



    ssc.start()

    ssc.awaitTermination()

启动spark

【2020/2/13】寒假自学——学习进度报告16

运行python

 【2020/2/13】寒假自学——学习进度报告16

运行flume【2020/2/13】寒假自学——学习进度报告16

启动Telnet

【2020/2/13】寒假自学——学习进度报告16

接收成功

【2020/2/13】寒假自学——学习进度报告16