加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

每个数据科学爱好者都应该知道的数据结构

发布时间:2021-02-02 15:16:31 所属栏目:评论 来源:互联网
导读:上图中的整个方案是基于 AWS Lake Formation 构建,AWS Lake Formation 本质上是一个管理性质的组件,与其他 AWS 服务互相配合,来完成整个企业级数据湖的构建。上图从左到右,体现了数据获

上图中的整个方案是基于 AWS Lake Formation 构建,AWS Lake Formation 本质上是一个管理性质的组件,与其他 AWS 服务互相配合,来完成整个企业级数据湖的构建。上图从左到右,体现了数据获取、数据存储、数据处理、数据分析四个步骤,下面我们将逐一介绍,阐述 AWS 提供的服务是如何帮助我们使用数据湖。

数据获取

数据获取是整个数据湖构建的起始,既然 Amazon S3 是 AWS 数据湖的存储,那我们该如何把业务数据放入其中呢?

首先,需要判断接入数据的类型,是结构化数据还是非结构化数据,是流式的数据还是批量的数据,然后再选择合适的工具。AWS 针对不同场景提供了丰富的服务,帮助用户将外部数据导入到数据湖 Amazon S3 中。

为了使数据湖中的数据可以统一进行管理,流入的数据需要包括元数据和实际数据两个部分。元数据流入包括数据源创建、元数据抓取两步,最终会形成数据资源目录,并生成对应的安全设置与访问控制策略。

AWS 提供了多种数据提取的服务,如:

  • AWS Snowball:提取离线传感器数据、NAS、本地 Hadoop。
  • Amazon Kinesis Data Firehose:提取 IoT、传感器数据、点击流数据、社交媒体源、流式处理日志。
  • AWS Direct Connect:提取本地数据湖、EDW、大型数据集合。
  • Amazon Database Migration:提取 Oracle、MySQL、MongoDB、DB2、SQL Server、Amazon RDS。
  • AWS Storage Gateway:提取本地 ERP、大型主机、实验室设备、NAS 存储。

这些服务可以把各式各样的数据从外部导入到 Amazon S3 中,具体每个服务的详细功能,AWS 都做了详细的介绍,用户可以参考官方文档进行配置。

数据存储

数据湖的存储主要是依托于 Amazon S3,Amazon S3 可以理解为数据湖最重要的一部分,这主要也依托于其强大的特性:

  • 提供 11 个 9 的数据持久性。
  • 业界领先的性能和可扩展性。
  • 完善的安全性、满足法律法规要求。
  • 对象粒度级别的权限控制。
  • 适合各类工作负载的存储类。
  • 方便与其他分析服务整合,如 Amazon Athena、Amazon Redshift 和 Amazon EMR。

AWS 的众多服务都可以和 Amazon S3 无缝结合,为数据湖的数据注入与摄取提供了强大的支持。
 

设备操作与维护

物联网最直接的应用之一是测量设备的运行。通过跟踪关键操作条件,您可以了解机器性能何时开始下降。当这种情况发生时,你可以在准备维护或修理机器时,对质量问题保持警惕。

设备故障导致质量问题,通常是在故障实际发生之前。然而,如果你的工厂只是在运行设备直到发生故障,你可能会有更多的担心比产品质量。问题可能很多:停机时间、时间表调整、备件、加班、安全隐患等等。这就是为什么使用物联网这样的策略来减少设备故障是如此有益。

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读