多模数据处理破茧成蝶大数据“卡脖子”成为过去！

发布时间：2020-05-27 21:16:10 所属栏目：经验来源：中国软件网

导读：大数据，的的确确正在改变我们的世界。在这场出人意料的新冠疫情之下，中国的大数据技术展现了惊人的威力：追踪流动人口，极速公布各地疫情报告，覆盖所有人群的健康码大数据服务，电商数据调动医疗资源，AI+大数据助力医药研发不管是传统的结构化数据，

副标题[/!--empirenews.page--] 大数据，的的确确正在改变我们的世界。

在这场出人意料的新冠疫情之下，中国的大数据技术展现了惊人的威力：

追踪流动人口，极速公布各地疫情报告，覆盖所有人群的健康码大数据服务，电商数据调动医疗资源，AI+大数据助力医药研发······

不管是传统的结构化数据，如人员信息、医院等医疗资源信息等，还是复杂的非结构化数据，如地理位置数据、图像数据、文本数据、语音数据等，各个层面的海量数据在客观、透明的基础上，以不同的技术进行处理、分析，助力全民战疫。

多模数据处理破茧成蝶大数据“卡脖子”成为过去！

温州城区菜市场实时人口监测

这些应用的背后是中国大数据技术与应用的进步，大数据基础软件自主研发成果不断，大数据软件国产化替代加速，大数据上云向用户提供按需服务，金融、航空航天、新零售等行业大数据应用卓有成效。

而在数字化商业世界中，新的时代会产生新的机会，新的技术会创造更广阔的空间。

随着数据量和数据种类的不断增多，由单一一个数据平台处理一类数据的应用虽然能力不断完善，但是还是难以满足用户用一个平台处理不同类型数据模型的需求。

人们也期望用一个统一的平台，处理不同类型的数据，提高数据处理和分析的效率，降低成本。

1.用户呼唤多模型数据处理平台

大数据平台是囊括大数据存储、处理和数据应用分析的集成化数据开发平台。建设这样一个大数据平台必然会面临很多问题：如何管理一个单体大集群;多源数据如何录入;当数据接入之后，如何高效的存储和查询这些数据，如何管理这些数据，避免形成数据沼泽;如何保障数据安全，如何将数据展现给用户等。这些基本上就是一个企业级大数据平台需要具备的能力。

多模数据处理破茧成蝶大数据“卡脖子”成为过去！

IDC公布的2016～2020年全面生产的数据量与增长率

从2008年诞生起，大数据平台从落地上看就是一组技术或者工具的组合，是以海量数据存储、计算及不间断流数据实时计算等场景为主的基础设施。

而开源社区其实已经发展出了多种组件，可以供市场组合一套大数据平台.但是由于涉及到公司内部的业务场景以及模式，以及很难有非常全面掌握这些工具的人才，所以这些工具组合可能不完全适用。

多模数据处理破茧成蝶大数据“卡脖子”成为过去！

开源的大数据平台工具

到目前为止，对于一些单一的典型场景，市场上出现不同的产品，有了知名的解决方案，解决数据的多样性。

例如，结构化数据使用Hive，动态列模型使用Bigtable、Hbase，应用于数据存储的文档数据库MongDB，专注于满足各类复杂搜索需求的ElasticSearch，常被应用于会话缓存的高速NoSQL数据库Redis，图数据库Neo4J，以及由实时计算引擎正成为通用大数据引擎的Flink等。

但是这些产品都是孤立的，每一个或者类只能解决一类问题。当用户的数据有很多类型，就不得不采用不同种类的数据库，并把它混在一起使用。

接受记者采访的一位不愿署名的专家认为，新的数据类型，传统关系结构数据、半结构化、非结构化数据，以及新的业态(如IOT)、新的数据来源(外部爬虫数据)、新的数据格式(如社交、游戏、地理)等多元化的数据出现，都对多模异构数据处理产生诉求。

接受记者采访的星环研发总监吕程认为，由于各个数据库各自为政，应用开发商或客户不得不自己架设一层，来解决数据在不同库间的导入导出、数据在不同库中的一致性、综合集群整体运维等一系列问题。因此，混合使用的方式操作不便、运维复杂的问题会日益凸显。

今天，客户对这种架构越来越难容忍，希望能用一套大数据平台，解决各种复杂的数据结构问题。

星环科技创始人、CEO孙元浩接受中国软件网记者采访时认为，目前，大数据行业一个明显的发展趋势就是推出一个统一的大数据平台，能够处理多种数据模型，能够提供统一的编程语言、统一的计算引擎，使用统一的存储管理系统、统一的资源调度系统，能够支持多种不同的数据模型。

孙元浩说：“星环科技把这个统一的大数据平台，称为多模型异构的数据处理平台。”

2.两条发展路径，两种不同结果

在大数据软件发展中，技术路线发展演绎精彩纷呈，令人目不暇接。毕竟这是一个巨大的市场机会，创造天量的市场机会，也会诞生像微软、谷歌、AWS一样的行业巨人。

虽然专家们将大数据的技术路线大体上分为Hadoop路线、Spark路线、自主研发路线、以及上一代MPP架构沿用路线等，但是记者认为，在发展多模型大数据平台方面，几本上可以分为两大技术路线，一是开源路线，另一个是自主研发路线。

不管是那种技术路线，一些数据库或大数据厂商在多模型数据处理上都提出自己的“行业解决方案”，一些则推出自己的“数据云平台”等。虽然各种描述五花八门，但其解决的核心问题和其核心架构，还是解决异构数据库间的数据同步等底层问题，使客户从这些底层问题中解放出来，像使用单一数据平台一样简便易用，从而为客户创造价值。

开源路线的代表就是Hadoop和Spark。

提起大数据，依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储，并能分布的存取与处理。过去Hadoop几乎成了大数据的代名词。

专家认为，作为大数据基础软件的一大技术路线，基于开源Hadoop发展的最大优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下，运行速度虽然不占优势，但却十分稳定。既是优势也是劣势，Hadoop在批处理方面的强大无法掩盖其在交互式分析和流处理方面的缺憾。

在大数据发展中，开源大数据平台Hadoop占据至关重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三驾马车。

2018年，Cloudera和Hortonworks因为连连亏损，两大巨头公司宣布平等合并，Cloudera以股票方式收购Hortonworks。但合并后公司股价继续下跌。

（编辑：新余站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

首富马斯克谈成功？他	当
哲学家谈元宇宙夏莹	中国VC无合伙人

多模数据处理破茧成蝶 大数据“卡脖子”成为过去！

多模数据处理破茧成蝶大数据“卡脖子”成为过去！