加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 经验 > 正文

多模数据处理破茧成蝶 大数据“卡脖子”成为过去!

发布时间:2020-05-27 21:16:10 所属栏目:经验 来源:中国软件网
导读:大数据,的的确确正在改变我们的世界。 在这场出人意料的新冠疫情之下,中国的大数据技术展现了惊人的威力: 追踪流动人口,极速公布各地疫情报告,覆盖所有人群的健康码大数据服务,电商数据调动医疗资源,AI+大数据助力医药研发 不管是传统的结构化数据,
副标题[/!--empirenews.page--] 大数据,的的确确正在改变我们的世界。

在这场出人意料的新冠疫情之下,中国的大数据技术展现了惊人的威力:

追踪流动人口,极速公布各地疫情报告,覆盖所有人群的健康码大数据服务,电商数据调动医疗资源,AI+大数据助力医药研发······

不管是传统的结构化数据,如人员信息、医院等医疗资源信息等,还是复杂的非结构化数据,如地理位置数据、图像数据、文本数据、语音数据等,各个层面的海量数据在客观、透明的基础上,以不同的技术进行处理、分析,助力全民战疫。

多模数据处理破茧成蝶 大数据“卡脖子”成为过去!

温州城区菜市场实时人口监测

这些应用的背后是中国大数据技术与应用的进步,大数据基础软件自主研发成果不断,大数据软件国产化替代加速,大数据上云向用户提供按需服务,金融、航空航天、新零售等行业大数据应用卓有成效。

而在数字化商业世界中,新的时代会产生新的机会,新的技术会创造更广阔的空间。

随着数据量和数据种类的不断增多,由单一一个数据平台处理一类数据的应用虽然能力不断完善,但是还是难以满足用户用一个平台处理不同类型数据模型的需求。

人们也期望用一个统一的平台,处理不同类型的数据,提高数据处理和分析的效率,降低成本。

1.用户呼唤多模型数据处理平台

大数据平台是囊括大数据存储、处理和数据应用分析的集成化数据开发平台。建设这样一个大数据平台必然会面临很多问题:如何管理一个单体大集群;多源数据如何录入;当数据接入之后,如何高效的存储和查询这些数据,如何管理这些数据,避免形成数据沼泽;如何保障数据安全,如何将数据展现给用户等。 这些基本上就是一个企业级大数据平台需要具备的能力。

多模数据处理破茧成蝶 大数据“卡脖子”成为过去!

IDC公布的2016~2020年全面生产的数据量与增长率

从2008年诞生起,大数据平台从落地上看就是一组技术或者工具的组合,是以海量数据存储、计算及不间断流数据实时计算等场景为主的基础设施。

而开源社区其实已经发展出了多种组件,可以供市场组合一套大数据平台.但是由于涉及到公司内部的业务场景以及模式,以及很难有非常全面掌握这些工具的人才,所以这些工具组合可能不完全适用。

多模数据处理破茧成蝶 大数据“卡脖子”成为过去!

开源的大数据平台工具

到目前为止,对于一些单一的典型场景,市场上出现不同的产品,有了知名的解决方案,解决数据的多样性。

例如,结构化数据使用Hive,动态列模型使用Bigtable、Hbase,应用于数据存储的文档数据库MongDB,专注于满足各类复杂搜索需求的ElasticSearch,常被应用于会话缓存的高速NoSQL数据库Redis,图数据库Neo4J,以及由实时计算引擎正成为通用大数据引擎的Flink等。

但是这些产品都是孤立的,每一个或者类只能解决一类问题。当用户的数据有很多类型,就不得不采用不同种类的数据库,并把它混在一起使用。

接受记者采访的一位不愿署名的专家认为,新的数据类型,传统关系结构数据、半结构化、非结构化数据,以及新的业态(如IOT)、新的数据来源(外部爬虫数据)、新的数据格式(如社交、游戏、地理)等多元化的数据出现,都对多模异构数据处理产生诉求。

接受记者采访的星环研发总监吕程认为,由于各个数据库各自为政,应用开发商或客户不得不自己架设一层,来解决数据在不同库间的导入导出、数据在不同库中的一致性、综合集群整体运维等一系列问题。因此,混合使用的方式操作不便、运维复杂的问题会日益凸显。

今天,客户对这种架构越来越难容忍,希望能用一套大数据平台,解决各种复杂的数据结构问题。

星环科技创始人、CEO孙元浩接受中国软件网记者采访时认为,目前,大数据行业一个明显的发展趋势就是推出一个统一的大数据平台,能够处理多种数据模型,能够提供统一的编程语言、统一的计算引擎,使用统一的存储管理系统、统一的资源调度系统,能够支持多种不同的数据模型。

孙元浩说:“星环科技把这个统一的大数据平台,称为多模型异构的数据处理平台。”

2.两条发展路径,两种不同结果

在大数据软件发展中,技术路线发展演绎精彩纷呈,令人目不暇接。毕竟这是一个巨大的市场机会,创造天量的市场机会,也会诞生像微软、谷歌、AWS一样的行业巨人。

虽然专家们将大数据的技术路线大体上分为Hadoop路线、Spark路线、自主研发路线、以及上一代MPP架构沿用路线等,但是记者认为,在发展多模型大数据平台方面,几本上可以分为两大技术路线,一是开源路线,另一个是自主研发路线。

不管是那种技术路线,一些数据库或大数据厂商在多模型数据处理上都提出自己的“行业解决方案”,一些则推出自己的“数据云平台”等。虽然各种描述五花八门,但其解决的核心问题和其核心架构,还是解决异构数据库间的数据同步等底层问题,使客户从这些底层问题中解放出来,像使用单一数据平台一样简便易用,从而为客户创造价值。

开源路线的代表就是Hadoop和Spark。

提起大数据,依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储,并能分布的存取与处理。过去Hadoop几乎成了大数据的代名词。

专家认为,作为大数据基础软件的一大技术路线,基于开源Hadoop发展的最大优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下,运行速度虽然不占优势,但却十分稳定。既是优势也是劣势,Hadoop在批处理方面的强大无法掩盖其在交互式分析和流处理方面的缺憾。

在大数据发展中,开源大数据平台Hadoop占据至关重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三驾马车。

2018年,Cloudera和Hortonworks因为连连亏损,两大巨头公司宣布平等合并,Cloudera以股票方式收购Hortonworks。但合并后公司股价继续下跌。

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读