Spark集群式安装部署

飞鸿踏雪0

2020-04-16

关注关注

1.前提条件

1.1创建3台虚拟机，且配置好网络，建立好互信(ssh免密)。

1.2 Java1.8环境已经配置好

1.3 Hadoop集群已经完成搭建

1.4 Scala软件包和Spark软件包的下载

https://www.scala-lang.org/download/

http://spark.apache.org/downloads.html

2.安装Scala

2.1解压安装包：tar -zxvf scala-2.13.0.tgz

2.2 配置环境变量

　vim /etc/profile  //编辑环境变量
　　export SCALA_HOME=/usr/local/scala/scala-2.13.1
　　export PATH=PATH:SCALA_HOME/bin
 
　　source /etc/profile //使立即生效

3.验证安装

[ ~]# scala　　//进入scala交互式界面

Spark集群式安装部署

4.安装spark

4.1 解压安装包：tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz

4.2 配置环境变量

　vim /etc/profile  //编辑环境变量
 　　export SPARK_HOME=/usr/hadoop/spark/spark-2.4.3-bin-hadoop2.7     　　export PATH=$PATH:$SPARK_HOME/bin
 
　　source /etc/profile //使立即生效

4.3 spark-env.sh配置 

    []# cd /usr/hadoop/spark/spark-2.4.3-bin-hadoop2.7/conf
    
    []# vi spark-env.sh

#添加如下内容：
    export JAVA_HOME=/usr/local/java/jdk1.8.0_161
    export SCALA_HOME=/usr/local/scala/scala-2.13.1
    export HADOOP_HOME=/usr/local/hadoop
    export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
    export SPARK_MASTER_HOST=node01
    export SPARK_WORKER_MEMORY=1g
    export SPARK_WORKER_CORES=2
    export SPARK_HOME=/usr/local/spark/spark-2.4.4-bin-hadoop2.7
    export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) //hadoop的bin目录

4.4 slaves配置

hdp01
hdp02
hdp03    //  spark集群的主机名

4.5 复制到其他节点

在master节点上安装配置完成Spark后，将整个spark目录拷贝到其他节点，并在各个节点上更新/etc/profile文件中的环境变量

5.测试Spark

- 在master节点启动Hadoop集群
- 在master节点启动spark
[ spark-2.4.3-bin-hadoop2.7]# sbin/start-all.sh
打开浏览器输入192.168.xx.xx:8080，看到如下活动的Workers，证明安装配置并启动成功:

Spark集群式安装部署

spark hadoop scala 环境变量 hadoop集群搭建

飞鸿踏雪0

0 关注 0 粉丝 0 动态

关注关注

入门大数据---Spark开发环境搭建

Local 模式是最简单的一种运行方式，它采用单节点多线程方式运行，不用部署，开箱即用，适合日常测试开发。进入 spark-shell 后，程序已经自动创建好了上下文 SparkContext，等效于执行了下面的 Scala 代码：。安装完成后可以先做一个

Hhanwen 2020-06-25

Apache Spark

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spa

xclxcl 2020-05-31

来看看基于Kubernetes的Spark部署完全指南

本文是在Kubernets上搭建Spark集群的操作指南，同时提供了Spark测试任务及相关的测试数据，通过阅读本文，你可以实践从制作Spark镜像、搭建Spark容器集群，到在集群上运行测试任务的完整流程。由于Spark的运行依赖于数据，我们将配置Spa

BornZhu 2020-05-20

今天的收获

直接用jar包方便许多。编程似乎在不断完善，没有人知道未来是啥。因为map和reduce不够用。scala编写代码比java精简。sbt相对于scala来说就相当于 maven对java差不多。

zhixingheyitian 2020-06-08

spark集群环境搭建

1.安装jdk参考https://blog.51cto.com/13001751/1980999 2.安装scala下载路径： https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.tgz

Hhanwen 2020-05-04

Spark集群的搭建

Type in expressions for evaluation. Or try :help.export SCALA_HOME=/opt/soft/scala-2.13.1 #scala的安装目录。export SPARK_WORKER_CORES

kekeromer 2020-04-16

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

Spark SQL(6) OptimizedPlan

在这一步spark sql主要应用一些规则，优化生成的Resolved Plan，这一步涉及到的有Optimizer。之前介绍在sparksession实例化的是会实例化sessionState，进而确定QueryExecution、Analyzer，Op

Hhanwen 2020-07-26

spark 广播变量累加器

你还可以使用 destroy 方法彻底销毁广播变量，调用该方法后，如果计算任务中又用到广播变量，则会抛出异常。　　广播变量在一定数据量范围内可以有效地使作业避免 Shuffle，使计算尽可能本地运行，Spark 的 Map 端连接操作就是用广播变量实现的。

zhixingheyitian 2020-07-19

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkContext中创建DAGScheduler的代码如下所示：

yanqianglifei 2020-07-07

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 2020-07-05

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 2020-07-05

Notebook Docker 安装spark环境

zhixingheyitian 2020-07-04

Spark Streaming读取Kafka数据两种方式

Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。在提交Spark Streaming任务后，Spark集群会划出指定的Receivers来专门、持续不

rongwenbin 2020-06-15

Apache Spark有哪些局限性

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题，并且如今非常流行。但工业正在转移朝向apache flink。Apache Spark是为快速计算而设计的开源，闪电般快速的集群计算框架。Apac

sxyhetao 2020-06-12

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能。经 EMRFS S3 优化的提交程序是一款新的输出提交程序，可用于Amazon EMR5.19.0 及更高版本的Apache Spar

hovermenu 2020-06-10

spark考试

零，第0章-课程介绍。大数据的基本概念、关键技术和代表性软件。介绍Scala语言基础语法。Spark简介、运行架构、RDD的设计与运行原理、部署模式。Spark的基本安装方法，如何在spark-shell中运行代码以及如何开发Spark独立应用程序。RDD

Oeljeklaus 2020-06-10

Mr与spark的shuffle过程详解及对比

大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主要介绍mapReducehe和Spark两者的shuffle过程。Map

Johnson0 2020-06-08

spark的编译

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -Phive -Phive-thriftserver -Pyarn -DskipTests clean package. 我们可以使用Spark源

zhixingheyitian 2020-06-01

Spark分区

在Spark中，RDD是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。图一中，RDD1包含了5个Partition，RDD2包含了3个Partition，这

Hhanwen 2020-05-29

安科网

Spark集群式安装部署

飞鸿踏雪0

1.前提条件

2.安装Scala

4.安装spark

5.测试Spark

飞鸿踏雪0

相关推荐

入门大数据---Spark开发环境搭建

Apache Spark

来看看基于Kubernetes的Spark部署完全指南

今天的收获

spark集群环境搭建

Spark集群的搭建

spark系列之基本概念

Spark SQL(6) OptimizedPlan

spark 广播变量累加器

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

Spark DAG 依赖关系 Stage

Spark RDD

Notebook Docker 安装spark环境

Spark Streaming读取Kafka数据两种方式

Apache Spark有哪些局限性

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

spark考试

Mr与spark的shuffle过程详解及对比

spark的编译

Spark分区

飞鸿踏雪0