加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

云+社区联合快手 深度解读五大热门大数据技术

发布时间:2019-09-02 17:21:39 所属栏目:评测 来源:鸢玮
导读:【51CTO.com原创稿件】数据已经成为企业宝贵的资产,如何利用数据的分析挖掘,从而辅助企业进行商业决策,成为企业所关注的。 8月24日,由云+社区(腾讯云官方开发者社区)联合快手举办的《大数据技术实践与应用》沙龙活动成功举行,沙龙聚焦于大数据的技


yarn在快手应用实践与技术演进之路

来自快手数据架构工程师房孝敬,介绍yarn系统在快手的应用实践,遇到的问题以及相应的技术演进过程。

Hadoop俨然已是业界认可、成熟的数据存储、处理框架。目前,Hadoop的发展已经从1.0走到了2.0版本。在Hadoop v2.0的版本中引入Yarn,主要是解决了Hadoop v1.0中的扩展性问题。yarn主要分成三个模块,一个是管理集群资源的RM,一个是管理机器资源情况的NM,还有管理APP资源和内部逻辑的AM。

RM模块内部架构分为两部分,一个是管理集群中节点和APP的状态,分别有ResourceTrackerService和ApplicationMasterService进行管理。服务和RM通信后将消息送到RM内部,生成相应的事件,通过事件处理机制驱动APP和节点状态机的更新,最后达成期望的状态。yarn另一个主要功能是调度,早期yarn在NM心跳处理逻辑中触发调度,因为调度比较耗时,会与其他事件处理过程竞争资源,导致双方互相影响,之后社区进行优化,将调度逻辑拆离到单独的线程,但还是存在很大问题,后面会介绍具体的优化。

快手在yarn方面的技术实践主要分成四个方面:1、集群稳定性方面的改动。2、对yarn的抢占机制做了优化。3、yarn的调度性能做提升。4、计算集群小IO优化。

集群规模变大后,节点变多,APP数量增多,导致事件处理压力变大,调度压力增大,机器故障变多。快手从RM优化、避免单点问题两方面进行稳定性改进。

在RM优化方面,快手曾经升级集群导致RM挂掉,通过对冗余事件进行优化,并且开发NM慢启动策略,最终降低RM事件处理压力,升级对RM的影响也就降低了。HDFS是yarn底层的设施,HDFS的卡顿会导致RM事件处理逻辑卡住,通过优化事件处理逻辑中HDFS、DNS等IO操作,提升事件处理逻辑的稳定性。优化完后,发现事件处理占用的CPU较多,为了避免事件处理逻辑成为集群性能瓶颈,把NM事件处理从主事件处理流程中剥离到单独的线程,提升了整个事件处理的速度。

在特定场景下,会出现奇怪的磁盘问题,比如磁盘是好的但是某个目录是坏的,这种问题在现有机制下很难发现,导致特定作业失败。快手采用NM磁盘黑名单,通过task失败信息进行规则匹配,发现磁盘问题,将有问题的磁盘放在黑名单中,不再向这个磁盘调度作业。yarn的一大问题是,一台机器有问题调度失败,会造成雪崩效应,造成作业大量失败,快手通过集群层面黑名单机制解决这个问题。磁盘满、fd泄露,线程泄露也是会造成故障的,快手通过对CPU,mem,磁盘文件大小,fd数目,线程数目的控制,增强底层隔离,避免相互影响。集群中的问题机器较多,在集群规模变大后,如何发现问题机器是个难题,快手通过Container失败率高机器check、物理指标异常topN check和Job失败信息汇总三个方法来快速发现问题机器。

yarn一个主要的功能就是调度整个集群的资源。yarn的调度模型是比较复杂的,为了保证调度公平性,需要对队列和app进行排序。快手的初始思路是减少排序时间,缩小排序规模,优化排序算法。通过优化后,能够支撑5000台机器的规模。

但是优化后还是存在问题,扩展性不足,只能利用一个CPU;缺少全局节点信息,调度策略难以全局决策。最终,快手重构了调度架构和逻辑,开发了Kwai scheduler,建立资源分配的上帝视角,预先给队列分配资源,并发批量调度。先选APP再选节点,调度策略方便扩充,最终线上的调度速度可以达到每秒钟4万多。

未来,快手将在三个方面进行建设,资源分级保障建设、多集群建设和超配在离线混合部署。目前,快手yarn集群规模较大,使用资源非常多,通过作业画像和分级保障体系把资源倾斜给更重要的作业。此外,单集群容量有限,快手还会考虑多集群建设。第三,快手的yarn主要托管是离线计算的资源,公司很多非YARN管理的空闲资源没有使用,将合适的任务调度到空闲的机器上,也是快手未来探索的方向。


云端大数据产品架构及实践

弹性MapReduce是腾讯云构架于云端海量存储、计算基础设施之上的云端Hadoop 框架,用户可在十分钟获得一个安全、低成本、高可靠、高弹性扩展、架构可持续演进的专属大数据集群。腾讯云高级工程师乔超分享了腾讯云大数据EMR产品及其价值,同时根据实际经验介绍了大数据平台实践。

云+社区联合快手 深度解读五大热门大数据技术

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读