Spark DAG 依赖关系 Stage

Hhanwen

2020-07-05

关注关注

DAG ：

整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用：

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，

如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，

即子分区(子RDD)数据丢失后，可以通过找寻父分区(父RDD)，结合依赖关系进行数据恢复

综上，RDD(弹性分布式数据集)

①分区机制

②容错机制（借助RDD之间的依赖关系容错）即使用Spark 框架处理数据，把数据封装为RDD，然后通过高阶函数来处理

Spark DAG 依赖关系 Stage

以上的执行过程如下：

Spark DAG 依赖关系 Stage

RDD之间的依赖关系

依赖关系有两种：

①窄依赖：父分区和子分区是一对一关系，没有shuffle，即不会发生磁盘I/O，所以执行效率很高，

　　　如果DAG中存在多个连续的窄依赖，会放到一起执行，这种优化方式称为流水线优化

②宽依赖：父分区和子分区是一对多关系，会发生shuffle过程，会发生磁盘I/O。所以Spark框架并不是完全基于内存的，

　　　也是要依赖于磁盘的。但是已经尽力避免产生shuffle

Spark DAG 依赖关系 Stage

Stage

Spark的Stage（阶段)

Spark在执行任务（job）时，首先会根据依赖关系，将DAG划分为不同的阶段（Stage）。

处理流程是：

1）Spark在执行Transformation类型操作时都不会立即执行，而是懒执行（计算）

2）执行若干步的Transformation类型的操作后，一旦遇到Action类型操作时，才会真正触发执行（计算）

3）执行时，从当前Action方法向前回溯，如果遇到的是窄依赖则应用流水线优化，继续向前找，直到碰到某一个宽依赖

4）因为宽依赖必须要进行shuffle，无法实现优化，所以将这一次段执行过程组装为一个stage

5）再从当前宽依赖开始继续向前找。重复刚才的步骤，从而将这个DAG还分为若干的stage

Spark DAG 依赖关系 Stage

Stage(阶段) -> 一组Task集合

Task任务对应的是分区，即一个分区就是一个Task，但是要注意：多个连续的窄依赖，会放到一起执行作为一个Task，宽依赖按照不同的分区

stage spark rdd

Hhanwen

0 关注 0 粉丝 0 动态

关注关注

小记--------spark ——AGScheduler源码分析

// New stage creation may throw an exception if, for example, jobs are run on a. // HadoopRDD whose underlying HDFS files have b

yanqianglifei 2020-02-21

jquery:获得当前点击对象 : $(this)

var val=$(this).attr("id");alert(val);});var tdID = $(this).attr(‘id‘);publishID : $(‘#publishID‘).val(),teachDate : $

89463661 2020-02-20

Jenkins Pipeline 参数详解

Jenkins Pipeline 实际上是基于 Groovy 实现的 CI/CD 领域特定语言，主要分为两类，一类叫做Declarative Pipeline，一类叫做Scripted Pipeline。Declarative Pipeline体验上更接近

xiaodaiwang 2019-12-19

明解C语言中级篇第一章答案

printf("请猜一个-999~999的整数。printf("还剩%d次机会。printf("\a很遗憾，正确答案是%d。printf("您用了%d次猜中了。ans = 3*+3; /* 生成3~999之间3

fengjing81 2019-12-02

spark--job和DAGScheduler源码

一个job对应一个action操作，action执行会有先后顺序；每个job执行会先构建一个DAG路径，一个job会含有多个stage，主要逻辑在DAGScheduler。// New stage creation may throw an excepti

dxyadc 2019-10-27

Spark 资源调度包 stage 类解析

* A stage is a set of parallel tasks all computing the same function that need to run as part. * of a Spark job, where all the t

adayan0 2019-10-22

Linux启动过程[转]

机器加电启动后,BIOS开始检测系统参数,如内存的大小,日期和时间,磁盘设备以及这些磁盘设备用来引导的顺序,通常情况下，BIOS都是被配置。成首先检查软驱或者光驱，然后再尝试从硬盘引导。初的几个扇区，寻找用于装载操作系统的指令。　　linux里面的boot

lfjjia 2010-11-09

hive 执行计划

hive查询转换为一个有向无环图的阶段序列；这些阶段可能是 Map/Reduce阶段或者是执行元数据与文件操作； explain 输出包括三部分：。阶段描述信息以操作符和与其相关元数据来显示操作序列；操作符元数据有以下东西组成，像FilterOpe

herryyy 2012-12-18

一文读懂 babel7 的配置文件加载逻辑

近期，在波洞星球的PC官网项目中，我们采用了新版的 babel7 作为 ES 语法转换器。而 babel7 中的一大变更就是对配置文件的加载逻辑进行了改进，然而实际上对于不熟悉 babel 配置逻辑的朋友往往会带来更多问题。本文就是 babel7 配置文件

PANH 2019-07-01

Find Data in DynamoDB in Spark

Hereismysteps.FirstofallIdoascan. None. None. None. None. None. None. 243074. %spark.dep. z.load("mysql:mysql-connector-jav

starksummer 2019-03-31

babel的一些常用知识点整理

babel本身不具有任何转换功能，如果没有plugin,那么经过babel的代码和输入的是相同的。常用的一些插件问题presetpreset是一套规范，里面包含了几十个转译插件。这是一组插件的集合。Stage 2 - 初稿: 完成初步规范。Stage

上海彭彭 2019-06-30

Jenkins 用户文档（部署）

部署最基本的持续交付管道至少有三个阶段，应该在Jenkinsfile中定义：Build、Test和Deploy，对于本节，我们将主要关注部署阶段，但应注意稳定的构建和测试阶段是任何部署活动的重要前提。虽然这是一个崇高的理想，但对于许多人而言，有充分理由说明

CloasGao 2019-06-29

升级到Babel 7的经验

82530995 2019-06-28

git 必须要熟练掌握的命令

因为结合了开发中可能遇到的场景，篇幅较长，不过我觉得很有助于你理解 git 的运作机制，而不是死记硬背命令。HEAD指针始终指向的是当前分支的最新版本号，HEAD^, HEAD^^, ^ 的个数 n 或 HEAD~n，n 代表前 n 个版本号。在项目中直

雪飞海 2019-06-26

hive优化

explain extended:除咯有计划，还有抽象语义树。Statistics: Num rows: 1 Data size: 82 Basic stats: COMPLETE Column stats: NONE. ListSinkstage：一个s

成长之路 2018-10-18

不可不知的spark shuffle

一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换返回的RDD，会延续父RDD的分区信息，以pipeline的形式计算。每个对象仅依赖于父RDD中的单个对象。诸如coalesce之类的操作可能导致任务处理多个输入分区，

zilianxiaozhu 2018-09-12

Spark的ShuffleManager

ShuffleManager的主要职责是shuffle过程的执行、计算和处理。在shuffle write阶段，也就是一个stage结束之后，每个task对自己处理的数据进行哈希，根据哈希结果，将相同key的数据写入同一个磁盘文件，每个磁盘文件属于下一个s

adayan0 2018-07-20

Linux操作系统启动管理器-GRUB

GRUB是多启动规范的实现，它允许用户可以在计算机内同时拥有多个操作系统，并在计算机启动时选择希望运行的操作系统。GRUB可用于选择操作系统分区上的不同内核，也可用于向这些内核传递启动参数。GRUB是在计算机启动后运行的第一个程序，他是用来负责加载、传输控

jinkun00 2015-05-09

babel之配置文件.babelrc入门详解

es6特性浏览器还没有全部支持，但是使用es6是大势所趋，所以babel应运而生，用来将es6代码转换成浏览器能够识别的代码babel有提供专门的命令行工具方便转码，可以自行去了解。官方解释,是下一代JavaScript 语法的编译器。既然是下一代Java

FEvivi 2018-02-22

CentOS修复Grub

最近装CentOS的时候用的是u盘安装，不过安装过程中不小心把grub装在了u盘上，然后就悲剧的每次都要从u盘启动，当然不能容忍这样子，以下就是修复grub的过程：。grub> find /boot/grub/stage1 find /grub/st

jacknichao 2011-05-08

安科网

Spark DAG 依赖关系 Stage

Hhanwen

DAG ：

RDD之间的依赖关系

Stage

Hhanwen

相关推荐

小记--------spark ——AGScheduler源码分析

jquery:获得当前点击对象 : $(this)

Jenkins Pipeline 参数详解

明解C语言中级篇第一章答案

spark--job和DAGScheduler源码

Spark 资源调度包 stage 类解析

Linux启动过程[转]

hive 执行计划

一文读懂 babel7 的配置文件加载逻辑

Find Data in DynamoDB in Spark

babel的一些常用知识点整理

Jenkins 用户文档（部署）

升级到Babel 7的经验

git 必须要熟练掌握的命令

hive优化

不可不知的spark shuffle

Spark的ShuffleManager

Linux操作系统启动管理器-GRUB

babel之配置文件.babelrc入门详解

CentOS修复Grub

Hhanwen