文/唐云
Checkpoint 与 state 的关系
Checkpoint 是从 source 触发到下游所有节点完成的一次全局操作。下图1可以有一个对 Checkpoint 的直观感受,红框里面可以看到一共触发了 569K 次 Checkpoint,然后全部都成功完成,没有 fail 的。
state 其实就是 Checkpoint 所做的主要持久化备份的主要数据,看下图的具体数据统计,其 state 也就 9kb 大小。
文/李鹏飞
Flink支持自定义KeySelector
,从注释(见下图)可以看到对于同一个input要保证多次调用获取的key是相同的,否则作业会遇到异常和正确性问题。
文/邱从贤
众所周知,Flink 是当前最为广泛使用的计算引擎之一,它使用 checkpoint 机制进行容错处理 [1],checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部,我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法——小文件合并。
Update your browser to view this website correctly. Update my browser now