加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

阿里为什么要拿下Flink?

发布时间:2019-01-28 12:15:26 所属栏目:教程 来源:王珂玥
导读:如果这不是因为阿里新年消费的第一个大单,更多人知道 Flink 或许还会晚一点。据欧洲外媒 Deutsche Startups 报道,阿里巴巴集团以 1.033 亿美元(9000 万欧元)的价格收购了总部位于柏林的初创公司 Data Artisans。此消息之后得到了多家媒体从阿里处的证

Flink 的未来,已经决定这阿里的技术基因走向。莫问在云栖大会上提出了 Flink 的未来三个方向:首先,让 Flink 在更多的场景下落地,成为一种主流的批计算引擎。然后进一步在流和批之间进行无缝的切换,流和批的界限越来越模糊。其次,让 Flink 的生态上有更多语言的支持,不仅仅是 Java,Scala 语言,甚至是机器学习下用的 Python,Go 语言。还有,完善上层 Flink 的 Machine Learning 算法库,同时 Flink 往上层也会向成熟的机器学习、深度学习场景集成。

不难看出,Flink 的技术优势让阿里看到了符合自己大规模业务场景支持的预期,未来深度学习场景的构建需要从现有批流融合,发展为更加开放和智能的落地场景,不断拓展 Flink 的生态。

阿里需要拓宽技术护城河

Flink 项目是大数据处理领域最近冉冉升起的一颗新星。有关其技术优势我们在《程序员》杂志的《深入理解 Flink 核心技术》,以及阿里团队发表在其云栖社区的两篇文章《Flink 已经足够强大了吗?阿里巴巴说:还不够》和《阿里巴巴为什么选择 Apache Flink?》中已经有了非常详尽的解读。

总结来看,Flink 在 2015 年之前稳定性、安全性方面广受质疑,阿里投入研发后,通过架构变革、创新中间业务层、整合计算流程、开发融合适配接口等等,Flink 可以说迎来脱胎换骨的巨大发展优势。

完成对 Data Artisans 的收购,阿里无疑可以进一步整合 Flink 的整个生态资源,作出更有利于 Flink 发展的规划。不过,随着 Flink 的一些竞争对手也陆续实现了阿里在技术上的领先优势,Flink 在带给阿里未来强化大数据事实计算领先地位上,也充满诸多未知数。

阿里为什么要拿下Flink?

首先,收购前 Flink 有独立供应商 Data Artisans 支持,开源贡献使其技术发展路线容易符合更广大用户的预期。收购后阿里对 Flink 发展的拥有绝对权,其对社区贡献的参与积极性或相对减弱。

我们看到,这几年 Samza 在 LinkedIn 开源后缺乏重量级用户的加持而发展的举步维艰。早在 2014 年成为顶级 Apache 流处理框架项目的它,在久前才进入自己的 1.0 阶段,而此时 Flink 已经历多次迭代到了 1.8 版本。LinkedIn 的 Sam Samza 团队负责人 Samarth Shetty 为此在 Samza 1.0 的发布会上表示,当他们第一次找寻流处理时,现有的流处理框架很少能够处理他们在 LinkedIn 上的规模或技术问题,“例如,我们必须在 Samza 中构建增量检查点和主机关联性等功能。当时在 Apache Flink 等框架中无法使用这些功能。”显然,阿里在 Apache Flink 社区贡献已经改变了这一局面。如今,阿里掌控 Flink 一家独大,对于平衡 Flink 的商业版和社区之间的贡献,或许会有新的变化。

再者,当下大数据流式计算技术突破竞争过于聚焦,阿里的技术护城河还需要有新的突破。例如,即使阿里当前得益于自己已经在 YARN 上实现了 API 的连接得以将其运行在资源管理器上,Samza 则直接作为库嵌入到应用程序中并在任何资源管理器上运行,从而让计算引擎相对底层服务更加透明。除此之外,SQL 支持现在成为流媒体的主战场,Kafka 和 Spark 都有了,致力于支持用 SQL 创建交互式 shell。

第三,随着大数据流式计算可以提供更快的数据决策,用户针对传统批处理模式正在加速向实时数据场景迁移,为此流式计算技术在做好创新架构突破的同时也要注意对传统数据资产的有效衔接。诸如,Flink 已经在其分布式的流式计算框架中实现了事物的 ACID 操作,有效解决的事物的分布式存储环境的缓存一致性和分布式锁的概念。Data Artisans 联合创始人兼首席执行官 Kostas Tzoumas 表示,他们正为这一技术申请专利,“我们允许公司摆脱他们真正昂贵和复杂的 Oracle 数据库,这些数据库目前为他们提供 ACID 交易,并转向允许您扩展的新技术,允许您实施自定义代码,”他同时表示:“但存在一些明显的局限性,例如 Flink 与 Oracle 数据库不兼容 API。”

在这方面,Spark 因为未能及时支持 Spark 结构流和高级会话处理的新 API,从而让 Netflix 的高级数据工程师 Arora 决定 Netflix 批量作业迁移选择了 Apache Flink 的流式操作。

第四,阿里在获得 Flink 商业所有权后,需要更为清晰且落地的 Flink 商业规划。在这方面,Apex 似乎是个很好的例子。DataTorrent 将其 RTS 平台的核心处理引擎在两年前开放给 Apache,当时其已经可以利用 YARN 实现按需规模伸缩且通过 HDFS 实现容错能力。那是的 Flink 依旧显得稚嫩呢。不过在随后的发展中,DataTorrent 表越来越激进,诸如 DataTorrent 首席执行官 Guy Churchward 宣布 DataTorrent 标记的主要新功能包括通过与 Druid 集成扩展支持 SQL 和分析,通过 Python 和 PMML 实现更多机器学习和 AI 功能,通过与 Drools 集成支持复杂事件处理规则,以及存储和重放以记录和重放来自一个时间点等诸多功能,从平台方向到应用软件的创新让 DataTorrent 的发展陷入一种混乱。在 2018 年 2 月,在 Guy Churchward 宣布其将提供流媒体数据应用程序来实现颠覆性技术和颠覆性商业模式的 90 天后,DataTorrent 破产了。显然,由于流式计算和批处理在当下依然有着较为明确的作用场景,阿里极力致力于批流一体化的实现还需要有明确的场景支撑才会更有说服力。

第五,作为阿里云最为有利的两个竞争对手,Amazon 或是微软早已经实现托管的高速实时流分析服务,显然阿里云的流式计算堆栈 Flink 还需进一步完善。例如 Amazon Kinesis 可以从前端的应用服务器(例如 Web 服务器)或者移动的客户端(手机等移动设备或者 IoT 设备)直接注入流式数据,数据可以通过 EMR 进行流式处理和计算(例如基于 Spark Stream 的 EMR 计算框架),并将数据存储于 Amazon DynamoDB 或者对象存储 S3 之上。

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读