Flink SavePoint

文报

2020-06-09

一、概述

Savepoint 是检查点的一种特殊实现，底层实现其实也是使用 Checkpoint 的机制。

Savepoint 是用户以手工命令的方式触发 Checkpoint，并将结果持久化到指定的存储路径

中，其主要目的是帮助用户在升级和维护集群过程中保存系统中的状态数据，避免因为停机运维

或者升级应用等正常终止应用的操作而导致系统无法恢复到原有的计算状态的情况，从而无法实

现从端到端的 Exactly-Once 语义保证。

1）配置 Savepoints 的存储路径

在 flink-conf.yaml 中配置 SavePoint 存储的位置，设置后，如果要创建指定 Job 的 SavePoint，

可以不用在手动执行命令时指定 SavePoint 的位置。

state.savepoints.dir: hdfs:/hadoop101:9000/savepoints

2）在代码中设置算子ID

为了能够在作业的不同版本之间以及 Flink 的不同版本之间顺利升级，强烈推荐通过手动给算子赋予 ID，

这些 ID 将用于确定每一个算子的状态范围。如果不手动给各算子指定 ID，则会由 Flink 自动给每个算子生成一个 ID。

而这些自动生成的 ID 依赖于程序的结构，并且对代码的更改时很敏感的。因此，强烈建议手动设置 ID。

package com.apple.flink.savepoints

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment

object TestSavepoints {

  def main(args: Array[String]): Unit = {

    val streamEnv = StreamExecutionEnvironment.getExecutionEnvironment
    streamEnv.setParallelism(1)
    import org.apache.flink.streaming.api.scala._

    //读取数据到DataStream
    val stream = streamEnv.socketTextStream("hadoop101", 8888).uid("mySource-001")

    stream.flatMap(_.split(" "))
      .uid("flapMap-001")
      .map((_, 1))
      .uid("map=001")
      .keyBy(0)
      .sum(1)
      .uid("sum-001")
      .print()

    //启动流计算
    streamEnv.execute("wc")
  }
}

3）触发 SavePoint

//先启动Job
[ bin]# ./flink run -c com.bjsxt.flink.state.TestSavepoints -d /home/Flink-Demo-1.0-SNAPSHOT.jar
//再取消Job ，触发SavePoint
[ bin]# ./flink savepoint 6ecb8cfda5a5200016ca6b01260b94ce [ bin]# ./flink cancel 6ecb8cfda5a5200016ca6b01260b94ce

Flink SavePoint

Flink SavePoint

4）从 SavePoint 启动 Job

[ bin]# ./flink run -s \hdfs://hadoop101:9000/savepoints/savepoint-6ecb8c-e56ccb88576a \-c com.bjsxt.flink.state.TestSavepoints \-d /home/Flink-Demo-1.0-SNAPSHOT.jar

也可以通过 Web UI 启动 Job：

Flink SavePoint

文报

0 关注 0 粉丝 0 动态

相关推荐

【赵强老师】Flink的DataSet算子

Flink为了能够处理有边界的数据集和无边界的数据集，提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。下面我们通过具体的

raidtest 2020-10-09

入门大数据---Flink开发环境搭建

Flink 分别提供了基于 Java 语言和 Scala 语言的 API ，如果想要使用 Scala 语言来开发 Flink 程序，可以通过在 IDEA 中安装 Scala 插件来提供语法提示，代码高亮等功能。打开 IDEA , 依次点击 File =&g

匆匆那些年 2020-06-27

ARTS-WEEK-004

拨云见日的一周。借助树的递归遍历，而递归函数的关键是处理这个子树应该返回什么，再细分就是终止条件返回什么、后续递归结果处理什么。补充，这类树或DAG在实际应用中更多是通过parent节点串联起来，这时找最近公共祖先变成了第160题的找两个链表的交点。Fli

oXiaoChong 2020-06-20

flink01

Apache Flink是一个分布式大数据处理引擎，可以对有限数据流和无限流数据及逆行有状态计算（不太懂）。可以部署在各种集群环境，对各种大小的数据规模进行快速计算。将配置好的Flink安装包拷?for i in {4..7}; do scp -r fli

yuchuanchen 2020-06-16

带配置文件参数启动Flink任务

启动Flink任务方法的命令为flink run flink.jar但是有时候启动时需要向里面传入一些参数，比如配置文件的路径等。String local_path = parameters.get; //指定参数名：local_path. 代码打包完成

Spark高级玩法 2020-06-14

通过Flink+NBI可视化构建实时大数据分析系统

Flink主要特点：1、高吞吐、低延迟、纯流式架构；2、支持对乱序事件的处理；3、有状态、提供exactly-once计算；4、高度灵活的窗口机制；5、失败恢复、故障转移、水平扩展；6、批处理、流处理统一的APINBI大数据可视化：

Leonwey 2020-06-11

Flink DataStream API

Flink程序可以对分布式集合进行转换。根据数据源的类型，可以编写批处理程序或流处理程序，其中使用DataSet API进行批处理，并使用DataStream API进行流处理。Flink有特殊的类DataSet和DataStream来表示程序中的数据。在

Spark高级玩法 2020-06-09

Flink Java踩坑记录（gegge1.10.0）

使用Flink，从阿里云的AMQP中获取数据，然后直接写入到InfluxDB中。

zhangxiaocc 2020-06-08

异步屏障快照ABS

检查点是Flink为流计算过程提供的容错和故障恢复机制。当程序出错时，Flink会重启受到影响的那部分算子及计算逻辑，并将它们重置到最后一次成功checkpoint时的状态。每次成功的checkpoint产生的“状态数据”其实就是这个流式计算任务在那一时刻

xorxos 2020-06-07

Flink 流式聚合性能调优指南

SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外，Flink Table API 和 SQL 是高效优化过的，它集成了许多查询优化和算子优化。但并不是所有的优化都是

xiaoyutongxue 2020-05-27

k8s 部署Flink

此步骤部署才需要配置文件。先把Flink的所有配置文件拷贝到本地, 再把本地的配置文件挂在到POD里面。vim zoo.cfg //可高用的配置。# The number of milliseconds of each tick. # The numbe

yuchuanchen 2020-05-27

Flink kuduSink开发

拿到表名后就能使用KuduClient对象对其操作了

xorxos 2020-05-26

理解Flink State

在Flink的官网写着：Stateful Computations over Data Streams。基于状态计算的数据流。在流式计算中，希望做一些聚合分析等。那么就需要保存当前日志的状态，以备与后来的日志做比较。在Flink中每个操作都会有状态的保存无

阿尼古 2020-05-26

flink系列-11、PyFlink 核心功能介绍（整理自 Flink 中文社区）

2015年加入阿里巴巴搜索事业部，从事主搜离线相关开发。2017年开始参与 Flink SQL 相关的开发，2019年开始深入参与 PyFlink 相关的开发。PyFlink 社区扶持计划。提供了 Python、UDF 的支持。提供用户自定义的一些UDF

千慧 2020-05-18

Flink 入门

Apache Flink是一个框架和分布式处理引擎，用于在无界和有界数据流上进行有状态的计算。Flink被设计为在所有常见的集群环境中运行，以内存中的速度和任何规模执行计算。Apache Flink is a framework and distribut

yuchuanchen 2020-05-17

Flink : Standalone Cluster

Standalone Cluster 就是独立的 Flink 集群，相对应的有基于 YARN 的 Flink 集群。可以看到有 3 个 Task Manager，由于每个 Task Manager 只配了一个 slot，总共是 3 个 Task Slot.

yuchuanchen 2020-05-16

Flink学习（三）批流版本的wordcount JAVA版本

Flink 开发环境通常来讲，任何一门大数据框架在实际生产环境中都是以集群的形式运行，而我们调试代码大多数会在本地搭建一个模板工程，Flink 也不例外。Flink 一个以 Java 及 Scala 作为开发语言的开源大数据项目，通常我们推荐使用 Java

Spark高级玩法 2020-05-11

Flink学习（三）批流版本的wordcount Scala版本

//创建一个批处理的一个环境。//为了host和port不写死，flink提供了一个方法。//每一个算子也会有个方法 .disableChaining() 将这个算子单独拿出来。//还有个方法.startNewChain() 将当前算子之前面和后面分开

yuchuanchen 2020-05-11

Flink学习（四） Flink Table & SQL 实现wordcount Java版本

Flink Table & SQL WordCountFlink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。一个完整的 Flink SQL 编写的程序包括如下三部分。Sou

itmale 2020-05-11

flink常见的核心概念

在 Flink 这个框架中，有很多独有的概念，比如分布式缓存、重启策略、并行度等，这些概念是我们在进行任务开发和调优时必须了解的，这一课时我将会从原理和应用场景分别介绍这些概念。在 Flink 中，Flink 框架开发者们同样将这个特性进行了实现。Flin

阿尼古 2020-05-10

文报

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号