加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

阿里为什么要拿下Flink?

发布时间:2019-01-28 12:15:26 所属栏目:教程 来源:王珂玥
导读:如果这不是因为阿里新年消费的第一个大单,更多人知道 Flink 或许还会晚一点。据欧洲外媒 Deutsche Startups 报道,阿里巴巴集团以 1.033 亿美元(9000 万欧元)的价格收购了总部位于柏林的初创公司 Data Artisans。此消息之后得到了多家媒体从阿里处的证
副标题[/!--empirenews.page--]

 如果这不是因为阿里新年消费的第一个大单,更多人知道 Flink 或许还会晚一点。据欧洲外媒 Deutsche Startups 报道,阿里巴巴集团以 1.033 亿美元(9000 万欧元)的价格收购了总部位于柏林的初创公司 Data Artisans。此消息之后得到了多家媒体从阿里处的证实。

由于 Data Artisans 拥有着一种代表当今大数据流处理引擎的前沿技术,让阿里这一收购举动引起了相关业界不小的反响。尤其是,在阿里集团刚刚进行一次大规模组织架构调整后,需要依靠更加智能化的云计算技术融合到阿里系更为多元化的发展格局中,收购 Data Artisans 不失为面向新战略的一次有力布局。

阿里为什么要拿下Flink?

阿里的 Flink 血液

不熟悉的 Data Artisans 的读者,会很容易错过那些因标题为“阿里巴巴收购德国数据公司”这种平淡表述下的很多信息。即使那约 1 亿美元的收购额表述,在有着近 4000 多亿美元体量的的阿里卖卖卖的历程中,对比之前收购饿了么的 95 亿美元、36.7 亿美元拿下优酷土豆等等,也实在是难入法眼。

但其实,Data Artisans 手里握着一项当今大数据流处理引擎为数不多的前沿技术,叫做 Flink。Flink 核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。企业依托 Flink 技术体系建立的大数据流处理引擎解决方案,可以更合理更快速地获得计算结果投入到企业决策。Data Artisans 在 2015 年初将 Flink 贡献给 Apache 社区并成为该社区的顶级项目,Data Artisans 此后持有多个并行流的 data Artisans Platform 成为 Flink 的商业版本。

据 Data Artisans 官网介绍,其 dA 平台由 Apache Flink 和 dA Application Manager 组成,“包括与容器编排、持续集成/持续交付(CI/CD)、日志记录、度量指标和状态存储整合的随时可用的功能,为公司客户提供了单一视图,以便了解所有的数据流处理应用。”其客户包括阿里巴巴、荷兰国际集团(ING)、Netflix、优步、Lyft、、eBay、yelp、华为和 Capital One 等。

在 Data Artisans 的客户名单里我们轻而易举的发现了阿里,其中他每年双十一时让我们在阿里总部盯着的那个大屏幕上显示实时成交数字,其背后就是依赖 Flink 技术。那块屏幕显示的数字,需要通过巨大的网络流量汇总各个地方的报表、数据库等的数据,并需要在毫秒级别的时间延迟之内进行计算,并将计算结果汇总为单一的视图,即我们可以通过一块屏幕观察到的结果,这样的技术实现正是大数据流处理引擎技术在当今成为 AI 时代顶梁柱的核心原因。

如果说 Flink 建立的技术体系对 AI 时代是强需求,对阿里就是核心需求。为此,阿里在 Flink 引入内部团队后打造了 Blink。据透露,目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于 Flink 搭建的实时计算平台。另外,阿里巴巴集团副总裁周靖人之前宣布,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月正式开源,这就意味着阿里未来将会主要以 Blink 的身份来投入 Flink 的社区贡献了。

阿里为什么要拿下Flink?

阿里巴巴集团副总裁周靖人

可以说,一路下来,对 Flink 的投入,阿里已经证明了自己在大数据计算领域的战略眼光。

首先,阿里较早地看到了业务发展需要在大数据时代里需求解决方案。有着十年服务中国企业云计算从业历史的阿里,已经在第一线看到了大数据量爆发带给企业的业务压力,需要有高吞吐、低延迟的大数据计算解决方案服务自己的大规模数据业务场景。早在 2004 的时候,谷歌自己就放弃了自己创立的大数据离线计算鼻祖,PB 规模数据同时计算是 MapReduce 难以逾越的瓶颈。此后 Spark 发展至今,用批处理方式将大数据计算带入分钟级的反应延迟。如今,流式主导的分布式计算正在主导大数据计算引擎将企业带入近乎实时数据环境。为此,阿里巴巴计算平台事业部资深技术专家莫问在云栖大会上指出,2014 年 Flink 凭借高吞吐、低延迟等其它高级功能而在开源大数据引擎界展露头角,在 2015 年则将 Flink 引入团队研发,期望将来可服务于自己的超大规模数据业务场景。

第二,阿里认识到 Flink 的开源技术基因与自己业务融合的落地空间。作为 Apache 的顶级大数据流式计算引擎,Flink 并不孤独。这两年谷歌支持的 Beam、DataTorrent 支持 Apache Apex 都成了开源在这领域里的佼佼者。同时,来自 twitter 的 Storm、LinkedIn 的 Samza 也凭借独特的优势各领风骚。对此,阿里看到了其可以在 Flink 上发展的“非共识”空间,莫问认为用户需要有一套统一的大数据引擎技术,只需要根据自己的业务逻辑开发一套代码,在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持。“这就是阿里选择 Flink 的背景和初衷。”莫问表示。

第三,将 Flink 引入阿里全线业务,从而用场景优势拓展了 Flink 技术栈前进空间。Flink 最高成就显然是以其在阿里的应用为布局的。关于 Flink 在阿里巴巴的大规模应用,莫问披露,Flink 最初上线阿里巴巴只有数百台服务器,目前规模已达上万台,此等规模在全球范围内也是屈指可数;基于 Flink,内部积累起来的状态数据已经是 PB 级别规模;如今每天在 Flink 的计算平台上,处理的数据已经超过万亿条;在峰值期间可以承担每秒超过 4.72 亿次的访问,最典型的应用场景是阿里巴巴双 11 大屏。

阿里为什么要拿下Flink?

Flink 技术支持了阿里双十一购物节大屏显示的海量实时计算结果

第四,阿里将 Flink 带到前沿战场,创新聚焦在真正变革上。在阿里着手改造 Flink 之前,Flink 针对“一套统一的大数据引擎技术”已经初露端倪。大数据计算引擎在批处理与流式计算之间,最大的不在于数据进入计算引擎后,驻留缓存的时间方式的不同,批处理取决于驻慢缓存空间之后落地长期存储,而流式计算旨在规定的时间或是容量内会将数据发送到下一节点。Flink 较同期方案,如 Spark、Storm 等,优势就在于可以同时兼顾两种方案计算于一套计算引擎,但无法“统一”为一个堆栈。为此,阿里巴巴在 Flink 上提出了新的统一 API 架构,采用 DAG(有限无环图)API。“整个拓扑是可以融合批流统一的语义表达,整个计算无需区分是流计算还是批计算,只需要表达自己的需求。”

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读