加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

探索Hadoop与数据仓库之间的差异

发布时间:2021-06-05 11:18:44 所属栏目:大数据 来源:互联网
导读:在大数据世界中用于BI和分析的新平台的需求,并描述了三种常用的基本数据架构:数据仓库,大规模并行处理系统(MPP)和Hadoop。 在出现大数据之前,只有经过复杂数据库和出色工具处理的数据才可以追溯到1970年代。最流行的是(现在仍然是)基于事务的关系数据库

在大数据世界中用于BI和分析的新平台的需求,并描述了三种常用的基本数据架构:数据仓库,大规模并行处理系统(MPP)和Hadoop。

在出现大数据之前,只有经过复杂数据库和出色工具处理的数据才可以追溯到1970年代。最流行的是(现在仍然是)基于事务的关系数据库管理系统(RDBMS)。结构化查询语言(SQL)是用于管理数据并简化RDBMS内处理的解码环。

DBMS的其他迭代包括柱状,键/值和图形。在大多数情况下,他们使用结构化(如果不是高度结构化或标准化)的数据,通常驻留在仓库或专用数据集市中。

对象数据库是另一种形式,它是IT首次尝试使用结构化程度较低(如果不是非结构化的数据),例如视频和图像。它们被放置在专门的数据存储库中,并且通常需要专门的技能和专门的基础架构才能使其正常工作。换句话说,它们运行起来很昂贵。

RDBMS福利包

全球已经在基础设施上投资了数十亿美元,以运行这些数据库,并由人们进行操作和完善以适应各种垂直市场应用。对于交易处理,他们仍然是无可争议的王者。

RDBMS的其他好处包括:

  • 从故障中恢复的能力非常好,在大多数情况下可以恢复到最新状态
  • RDBMS可以轻松地分布在多个物理位置
  • RDBMS实际上保证了高度的数据一致性
  • SQL很容易学习
  • 有大量熟悉RDBMS的IT人才已安装
  • 用户可以执行相当复杂的数据查询

缺点是什么?事实是,只要所管理的数据具有结构性和关系性,就没有什么弊端。可伸缩性是一个问题,因为大多数这些系统都是专有的,而且核心存储非常昂贵,尤其是随着数据库的增长。但是,这些古老的数据库及其随行的工具和应用程序在每家《财富》 1000强公司中都是显而易见的,这有充分的理由:它们可以带来价值。

但是随后出现了大数据,其中很多来自非结构化的腹地。它包含来自点击流,网站日志,照片,视频,音频剪辑,XML文档,电子邮件,推文等的数据。

最初对IT部门而言,大多数数据类似于从宇宙深处发出的背景噪声-只是很多噪声。但是请记住这一点:一个名叫阿诺·彭齐亚斯(Arno Penzias)的人在1964年破译了深空背景噪声,最终将其解释为已得到验证的宇宙大爆炸理论的证明。他获得了诺贝尔奖。

大数据也是如此。事实证明,锁定在所有这些不同的大数据源中的是对客户行为,市场趋势,服务需求以及许多其他方面的宝贵见解。这是信息技术的大爆炸。

大数据已经成为数据量整体增长中最大的组成部分,并且传统分析平台和解决方案相对无法有效地处理非结构化数据,因此分析领域正在发生深刻的变化。

IT演进,而非革命

但是这里要牢记重要的事情。大数据分析不会取代传统的结构化数据分析,当然在可预见的将来也不会。

恰恰相反。正如《The Executive’s Guide to Big Data & Apache Hadoop》所述,“当您将大数据与传统信息源相结合以提出可产生巨大业务价值的创新解决方案时,一切都会令人着迷。”

因此,您可能会看到制造商将其库存系统(在RDBMS中)与基于文档商店的产品目录中的图像和视频说明联系在一起。这将帮助客户帮助自己立即选择并订购合适的零件。

或者,一家连锁酒店可以将基于Web的房地产搜索结果及其自身的历史入住指标加入RDBMS中,以优化夜间定价并通过更好的收益管理来增加收入。

共存,而不是替代。这是查看基于Hadoop的大数据分析与RDBMS和MPP世界之间关系的正确方法。因此,组织明智地专注于Hadoop发行版,以优化基于Hadoop的数据湖与传统系统之间的数据流。换句话说,保留旧的,并用新的创新。

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读