关于我们

我们是阿里巴巴计算平台事业部的实时计算组,主要产品为基于Apache Flink打造的实时计算平台。我们为阿里集团提供统一的大数据以及AI算法平台支持,包括淘宝、天猫、菜鸟、高德、优酷、钉钉等所有子公司的数据和算法业务都运行在我们的计算平台上,我们基于Apache Flink打造的实时计算平台已经助力双11全面实现大数据和算法实时化,让阿里的大数据得以发挥更大的价值。同时我们也已经通过阿里云向外界提供实时云计算服务,服务全球中小企业。

我们小团队负责打造实时计算平台内的存储引擎,即负责计算平台内的状态管理。Flink 最区别于其他流计算引擎的,其实就是状态管理。什么是状态?例如开发一套流计算的系统或者任务做数据处理,可能经常要对数据进行统计,如 Sum、Count、Min、Max,这些值是需要存储的。因为要不断更新,这些值或者变量就可以理解为一种状态。同时流计算的任务可能出现故障,任务出现任何故障时,Flink 会从最近的一次 Checkpoint 将整个流的状态进行恢复,然后继续运行它的流处理,对用户没有任何数据上的影响。支持对状态进行 Checkpoint 也是流计算存储引擎的一大特点。在实时计算场景中,状态量可能是巨大的,如何保持高性能的状态访问是一个关键问题。

这个博客记录了我们小团队沉淀的一些技术经验与感悟。如果你对我们的工作感兴趣,欢迎与我们进行交流 ververica-state@service.alibaba.com

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×