spark--job和DAGScheduler源码

dxyadc

2019-10-27

一个job对应一个action操作，action执行会有先后顺序；

每个job执行会先构建一个DAG路径，一个job会含有多个stage，主要逻辑在DAGScheduler。

spark提交job的源码见（SparkContext.scala的runJob方法）：

def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      resultHandler: (Int, U) => Unit): Unit = {
    if (stopped.get()) {
      throw new IllegalStateException("SparkContext has been shutdown")
    }
    val callSite = getCallSite
    val cleanedFunc = clean(func)
    logInfo("Starting job: " + callSite.shortForm)
    if (conf.getBoolean("spark.logLineage", false)) {
      logInfo("RDD‘s recursive dependencies:\n" + rdd.toDebugString)
    }
    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)
    progressBar.foreach(_.finishAll())
    rdd.doCheckpoint()
  }

DAGScheduler--job调度的核心入口：

private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      callSite: CallSite,
      listener: JobListener,
      properties: Properties) {//创建finalStage
    var finalStage: ResultStage = null
    try {
      // New stage creation may throw an exception if, for example, jobs are run on a
      // HadoopRDD whose underlying HDFS files have been deleted.//创建一个stage对象，并且将stage加入到DAGScheduler内存缓存中
      finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)
    } catch {
      case e: Exception =>
        logWarning("Creating new stage failed due to exception - job: " + jobId, e)
        listener.jobFailed(e)
        return
    }
//创建job
    val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
    clearCacheLocs()
    logInfo("Got job %s (%s) with %d output partitions".format(
      job.jobId, callSite.shortForm, partitions.length))
    logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")")
    logInfo("Parents of final stage: " + finalStage.parents)
    logInfo("Missing parents: " + getMissingParentStages(finalStage))

    val jobSubmissionTime = clock.getTimeMillis()//将job加入到内存缓存中
    jobIdToActiveJob(jobId) = job
    activeJobs += job
    finalStage.setActiveJob(job)
    val stageIds = jobIdToStageIds(jobId).toArray
    val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
    listenerBus.post(
      SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
   //使用submitStage（） 方法提交finalStage   submitStage(finalStage)
  }

dxyadc

0 关注 0 粉丝 0 动态

相关推荐

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 2020-07-05

小记--------spark ——AGScheduler源码分析

// New stage creation may throw an exception if, for example, jobs are run on a. // HadoopRDD whose underlying HDFS files have b

yanqianglifei 2020-02-21

jquery:获得当前点击对象 : $(this)

var val=$(this).attr("id");alert(val);});var tdID = $(this).attr(‘id‘);publishID : $(‘#publishID‘).val(),teachDate : $

89463661 2020-02-20

Jenkins Pipeline 参数详解

Jenkins Pipeline 实际上是基于 Groovy 实现的 CI/CD 领域特定语言，主要分为两类，一类叫做Declarative Pipeline，一类叫做Scripted Pipeline。Declarative Pipeline体验上更接近

xiaodaiwang 2019-12-19

明解C语言中级篇第一章答案

printf("请猜一个-999~999的整数。printf("还剩%d次机会。printf("\a很遗憾，正确答案是%d。printf("您用了%d次猜中了。ans = 3*+3; /* 生成3~999之间3

fengjing81 2019-12-02

Spark 资源调度包 stage 类解析

* A stage is a set of parallel tasks all computing the same function that need to run as part. * of a Spark job, where all the t

adayan0 2019-10-22

Linux启动过程[转]

机器加电启动后,BIOS开始检测系统参数,如内存的大小,日期和时间,磁盘设备以及这些磁盘设备用来引导的顺序,通常情况下，BIOS都是被配置。成首先检查软驱或者光驱，然后再尝试从硬盘引导。初的几个扇区，寻找用于装载操作系统的指令。　　linux里面的boot

lfjjia 2010-11-09

hive 执行计划

hive查询转换为一个有向无环图的阶段序列；这些阶段可能是 Map/Reduce阶段或者是执行元数据与文件操作； explain 输出包括三部分：。阶段描述信息以操作符和与其相关元数据来显示操作序列；操作符元数据有以下东西组成，像FilterOpe

herryyy 2012-12-18

一文读懂 babel7 的配置文件加载逻辑

近期，在波洞星球的PC官网项目中，我们采用了新版的 babel7 作为 ES 语法转换器。而 babel7 中的一大变更就是对配置文件的加载逻辑进行了改进，然而实际上对于不熟悉 babel 配置逻辑的朋友往往会带来更多问题。本文就是 babel7 配置文件

PANH 2019-07-01

Find Data in DynamoDB in Spark

Hereismysteps.FirstofallIdoascan. None. None. None. None. None. None. 243074. %spark.dep. z.load("mysql:mysql-connector-jav

starksummer 2019-03-31

babel的一些常用知识点整理

babel本身不具有任何转换功能，如果没有plugin,那么经过babel的代码和输入的是相同的。常用的一些插件问题presetpreset是一套规范，里面包含了几十个转译插件。这是一组插件的集合。Stage 2 - 初稿: 完成初步规范。Stage

上海彭彭 2019-06-30

Jenkins 用户文档（部署）

部署最基本的持续交付管道至少有三个阶段，应该在Jenkinsfile中定义：Build、Test和Deploy，对于本节，我们将主要关注部署阶段，但应注意稳定的构建和测试阶段是任何部署活动的重要前提。虽然这是一个崇高的理想，但对于许多人而言，有充分理由说明

CloasGao 2019-06-29

升级到Babel 7的经验

Babel的最新版本Babel 7 已经在Henry Zhu的不断努力下发布了，他真的是全身心地投入到了Babel的开发中，而Babel对于前端界的贡献也是有目共睹，没有这个神奇的编译器，前端界要落地ES6语法恐怕还要再等十年。最近我在给自己团队的UI组件

82530995 2019-06-28

git 必须要熟练掌握的命令

因为结合了开发中可能遇到的场景，篇幅较长，不过我觉得很有助于你理解 git 的运作机制，而不是死记硬背命令。HEAD指针始终指向的是当前分支的最新版本号，HEAD^, HEAD^^, ^ 的个数 n 或 HEAD~n，n 代表前 n 个版本号。在项目中直

雪飞海 2019-06-26

hive优化

explain extended:除咯有计划，还有抽象语义树。Statistics: Num rows: 1 Data size: 82 Basic stats: COMPLETE Column stats: NONE. ListSinkstage：一个s

成长之路 2018-10-18

不可不知的spark shuffle

一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换返回的RDD，会延续父RDD的分区信息，以pipeline的形式计算。每个对象仅依赖于父RDD中的单个对象。诸如coalesce之类的操作可能导致任务处理多个输入分区，

zilianxiaozhu 2018-09-12

Spark的ShuffleManager

ShuffleManager的主要职责是shuffle过程的执行、计算和处理。在shuffle write阶段，也就是一个stage结束之后，每个task对自己处理的数据进行哈希，根据哈希结果，将相同key的数据写入同一个磁盘文件，每个磁盘文件属于下一个s

adayan0 2018-07-20

Linux操作系统启动管理器-GRUB

GRUB是多启动规范的实现，它允许用户可以在计算机内同时拥有多个操作系统，并在计算机启动时选择希望运行的操作系统。GRUB可用于选择操作系统分区上的不同内核，也可用于向这些内核传递启动参数。GRUB是在计算机启动后运行的第一个程序，他是用来负责加载、传输控

jinkun00 2015-05-09

babel之配置文件.babelrc入门详解

es6特性浏览器还没有全部支持，但是使用es6是大势所趋，所以babel应运而生，用来将es6代码转换成浏览器能够识别的代码babel有提供专门的命令行工具方便转码，可以自行去了解。官方解释,是下一代JavaScript 语法的编译器。既然是下一代Java

FEvivi 2018-02-22

CentOS修复Grub

最近装CentOS的时候用的是u盘安装，不过安装过程中不小心把grub装在了u盘上，然后就悲剧的每次都要从u盘启动，当然不能容忍这样子，以下就是修复grub的过程：。grub> find /boot/grub/stage1 find /grub/st

jacknichao 2011-05-08

dxyadc

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号