Notebook Docker 安装spark环境

zhixingheyitian

2020-07-04

环境

Notebook docker环境

https://registry.hub.docker.com/r/jupyter/datascience-notebook/

下载安装包

spark安装包

http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

pyspark安装包

http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/pyspark-3.0.0.tar.gz

Py4j安装包

https://pypi.org/simple/py4j/

下载0.10.9版本

JDK安装包

Jdk 1.8

安装

spark环境安装

解压spark-3.0.0-bin-hadoop3.2.tgz 至 /var/spark目录，配置docker环境变量

SPARK_HOME=/var/spark/spark-3.0.0-bin-hadoop3.2

Java 环境安装

解压jdk至/var/spark/jdk1.8.0_191

配置环境变量

JAVA_HOME=/var/spark/jdk1.8.0_191

PATH=%PATH%:/var/spark/jdk1.8.0_191/bin

Pyspark安装

解压pyspark-3.0.0 并跳转至pyspark-3.0.0目录，执行python setup.py install,执行安装，默认会自动安装py4j，如果自动安装失败，手动安装上一步下载的py4j安装包再次执行python setup.py install命令

测试

新建python文件

from pyspark import SparkContext     
from pyspark.sql import SparkSession 
from pyspark.sql.types import StructType, StructField, LongType, StringType
from pyspark.sql import Row
from pyspark.sql import Column
import pandas as pd
import numpy as np

spark=SparkSession .builder .appName(‘newapp‘) .getOrCreate()

stringCSVRDD = spark.sparkContext.parallelize([
                    (123, "Katie", 19, "brown"),
                    (456, "Michael", 22, "green"),
                    (789, "Simone", 23, "blue")])
schema = StructType([StructField("id", LongType(), True),
                        StructField("name", StringType(), True),
                        StructField("age", LongType(), True),
                        StructField("eyeColor", StringType(), True)])
swimmers = spark.createDataFrame(stringCSVRDD,schema)
swimmers.registerTempTable("swimmers")
# 使用Sql语句
data=spark.sql("select * from swimmers")
# 将数据转换List，这样就可以查看dataframe的数据元素的样式
print(data.collect())
# 以表格形式展示数据
data.show()

Notebook Docker 安装spark环境

spark docker https

zhixingheyitian

0 关注 0 粉丝 0 动态

相关推荐

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

Spark SQL(6) OptimizedPlan

在这一步spark sql主要应用一些规则，优化生成的Resolved Plan，这一步涉及到的有Optimizer。之前介绍在sparksession实例化的是会实例化sessionState，进而确定QueryExecution、Analyzer，Op

Hhanwen 2020-07-26

spark 广播变量累加器

你还可以使用 destroy 方法彻底销毁广播变量，调用该方法后，如果计算任务中又用到广播变量，则会抛出异常。　　广播变量在一定数据量范围内可以有效地使作业避免 Shuffle，使计算尽可能本地运行，Spark 的 Map 端连接操作就是用广播变量实现的。

zhixingheyitian 2020-07-19

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkContext中创建DAGScheduler的代码如下所示：

yanqianglifei 2020-07-07

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 2020-07-05

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 2020-07-05

入门大数据---Spark开发环境搭建

Local 模式是最简单的一种运行方式，它采用单节点多线程方式运行，不用部署，开箱即用，适合日常测试开发。进入 spark-shell 后，程序已经自动创建好了上下文 SparkContext，等效于执行了下面的 Scala 代码：。安装完成后可以先做一个

Hhanwen 2020-06-25

Spark Streaming读取Kafka数据两种方式

Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。在提交Spark Streaming任务后，Spark集群会划出指定的Receivers来专门、持续不

rongwenbin 2020-06-15

Apache Spark有哪些局限性

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题，并且如今非常流行。但工业正在转移朝向apache flink。Apache Spark是为快速计算而设计的开源，闪电般快速的集群计算框架。Apac

sxyhetao 2020-06-12

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能。经 EMRFS S3 优化的提交程序是一款新的输出提交程序，可用于Amazon EMR5.19.0 及更高版本的Apache Spar

hovermenu 2020-06-10

spark考试

零，第0章-课程介绍。大数据的基本概念、关键技术和代表性软件。介绍Scala语言基础语法。Spark简介、运行架构、RDD的设计与运行原理、部署模式。Spark的基本安装方法，如何在spark-shell中运行代码以及如何开发Spark独立应用程序。RDD

Oeljeklaus 2020-06-10

今天的收获

直接用jar包方便许多。编程似乎在不断完善，没有人知道未来是啥。因为map和reduce不够用。scala编写代码比java精简。sbt相对于scala来说就相当于 maven对java差不多。

zhixingheyitian 2020-06-08

Mr与spark的shuffle过程详解及对比

大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主要介绍mapReducehe和Spark两者的shuffle过程。Map

Johnson0 2020-06-08

spark的编译

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -Phive -Phive-thriftserver -Pyarn -DskipTests clean package. 我们可以使用Spark源

zhixingheyitian 2020-06-01

Apache Spark

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spa

xclxcl 2020-05-31

Spark分区

在Spark中，RDD是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。图一中，RDD1包含了5个Partition，RDD2包含了3个Partition，这

Hhanwen 2020-05-29

Spark GraphX企业运用

Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。边的表示用 RDD[E

zhixingheyitian 2020-05-29

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 2020-05-29

Spark Streaming企业运用

========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。kafka、flume、HDFS

Hhanwen 2020-05-29

Spark RDD编程双Value类型交互

所谓双Value，就是两个数据集RDD之间进行操作。1 union：对源RDD和参数RDD合并后返回一个新的RDD，不会去重。2subtract：计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来。5zip：将两个RDD组合成Key/Va

zhixingheyitian 2020-05-28

zhixingheyitian

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号