加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

如果你刚刚进入数据科学领域

发布时间:2021-02-02 15:16:03 所属栏目:外闻 来源:互联网
导读:数据处理 数据处理这一部分主要是利用 AWS Glue 来进行处理,AWS Glue 是 ETL 和数据目录服务,它是无服务器架构,仅为作业实际使用的资源付费,方便易用,威力强大,支持自动 schema 发现,具有可视化 ETL 和代码生成和灵活的任务调度程序,是 AWS 大数据处

数据处理

数据处理这一部分主要是利用 AWS Glue 来进行处理,AWS Glue 是 ETL 和数据目录服务,它是无服务器架构,仅为作业实际使用的资源付费,方便易用,威力强大,支持自动 schema 发现,具有可视化 ETL 和代码生成和灵活的任务调度程序,是 AWS 大数据处理中非常重要的一个组件。

AWS Glue 主要组件有数据目录、作业编写、作业执行,下面介绍每个组件可以做什么事情:

  • 数据目录
    • Hive 元存储与增强功能兼容
    • 爬网程序自动提取元数据并创建表
    • 与 Athena、Amazon Redshift Spectrum 集成
  • 作业编写
    • 自动生成 ETL 代码
    • 在开源框架上构建,语言为 Python 和 Spark
    • 以开发人员为中心,包括编辑、调试、共享
  • 作业执行
    • 在无服务器 Spark 平台运行作业
    • 提供灵活时间安排
    • 处理依赖关系解析、监控和警报
    • 任务触发方式支持手动触发、定时触发、事件触发,可以和 AWS Lambda 集成

总之,借助 AWS Glue,我们无需再去考虑数据源是什么格式,是结构化还是非结构化,AWS Glue 可以自动智能地进行分析,推断出数据架构,数据类型等等。应对底层数据架构不断发生的变化,如果没有 AWS Glue,在数据源结构发生变化时,用户需要重新去创建数据目录,而这些繁琐的事情现在用户不需要再去关心,AWS Glue 可以统统搞定,数据分析人员可以把更多的注意力放在业务实现方面。

AWS Glue 也具备机器学习的能力,可以帮助用户识别不同的数据集中重复的记录,帮助用户进行数据清理和转换,这个功能不需要用户写一行代码,也不需要具备专业机器学习的算法的能力,只需点击几下鼠标即可实现。

数据分析

在企业里面,一般分析作业都是 BI 报表类型,业务部门把想看的指标告诉数据分析人员,数据分析人员编写 SQL 语句,然后运行结果提供给业务部门查看,但是由于需求的多变和不明确性,这样的过程会反反复复。

这是企业中一个非常典型的场景,但是在实际的使用过程中,客户可能还会需要更加复杂的一些分析手段,比如客户想要通过机器查询、通过 K/V 可以快速地在海量数据中查询需要的结果、想要实现全文检索,或者流式快速对数据进行统计等。

面对以上的问题,我们都可以通过 AWS 提供的服务进行实现。通过 Amazon Redshift 实现交互式查询分析,使用 Amazon EMR 对海量数据进行 ETL 处理和分析,使用 Amazon ElasticSearch 实现全文检索,Amazon Kinesis 实现流式快速数据统计等,借助于 Amazon Athena 可以直接对 Amazon S3 的数据进行 SQL 查询,当下比较流行的机器学习方面也可也借助 Amazon SageMaker 来实现,Amazon SageMaker 可以读取 Amazon S3 中的训练数据,并将训练好的模型回写到 Amazon S3 中。

我们可以看到,在 AWS 数据湖上,这些分析都是通过不同的外部工具来实现,计算由外部的组件实现,存储统一由 Amazon S3 提供,这也是 AWS 数据湖的独特之处,计算与存储分离。

数据展示

数据的采集和生产最终是为了决策,数据的各种分析要求基本已经满足了企业大部分的需求,那这些分析结果如何以可视化的效果展现从而帮助用户决策呢?

在数据展示方面,AWS 也为用户提供了一款采用云技术的快速商业智能服务 Amazon QuickSight,企业用户可以更加便捷、快速低成本地分析数据。

Amazon QuickSight 的定位是连接用户与数据,它是整个 AWS 生态中离商业决策最近的服务,直接解决大数据应用的 “最后一公里” 问题。它不需要用户有代码能力,可自动识别和整合各种不同的数据源,包括与 Amazon RedShift、Amazon S3、Amazon Athena、Amazon Aurora、Amazon RDS、AWS IAM、AWS CloudTrail、Amazon Cloud Directory 等 AWS 服务的原生集成。提供实时交互式的数据查询方式,并且自动进行数据可视化,最大程度降低了商业决策端用户使用大数据的成本。

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读