Flink性能问题定位

看反压

通常最后一个被压高的subTask的下游就是job的瓶颈之一

看checkpoint时长

checkpoint时长能在一定程度影响job的整体吞吐

看核心指标

延迟和吞吐是最重要的指标

资源使用率

提高资源利用率是最终目的。排查首先看GC

常见性能问题

  • JSON序列化和反序列化
  • MAP和Set的Hash冲突
  • 和低速系统交互 如MySQL,HBASE
  • 数据倾斜
  • 频繁GC 甚至TM失联
  • 大窗口 窗口size大、数据量大,或者滑动窗口size和step比值比较大如size=5min,step=1s

相关推荐