从数字人民币看区块链,能否打破千年历史怪圈
上图是一个数据湖的架构图,我们将准备两份数据 sales 和 customers,会使用 AWS Glue 来存取数据的元数据,在使用 AWS Lake Formation 赋予用户 salesuser 和 customersuser 使用这两个数据表,最终他们将通过 Amazon Athena 来查询需要的数据。 准备数据和用户 我们准备了两个数据文件,下面把他们各自的字段列举一下:
同样我们也会创建两个用户,分别是 salesuser 和 customersuser,并赋予相应的权限:
下面开始让我们创建吧。 创建 AWS IAM 用户 创建用户这里有几个注意事项,我们创建的用户是需要可以登录 AWS Console 控制台,用户赋予以下几项权限:
AmazonS3FullAccess, AmazonAthenaFullAccess, CloudWatchLogsReadOnlyAccess, AWSCloudFormationReadOnlyAccess 和 AWSGlueConsoleFullAccess。 权限管理 在企业数字化转型的过程中,势必会有很多数据分散在各个地方,这些数据如何统一管理?AWS 给出的答案是需要一个统一的数据目录用来注册和管理数据的元数据信息。在 AWS 搭建一个这样的数据目录并不难,使用 AWS Glue Catalog 可以很方便实现。 但是对于一个集中的数据目录,如何管理权限边界变成了一个问题,AWS 是如何管理权限边界的呢? AWS Glue Catalog 是通过 AWS IAM 对元数据进行精细化控制的,它可以在整个数据目录级别、数据库级别、表级别对不同的 AWS IAM 用户进行授权,非常灵活方便。这些权限管理可以通过 AWS Lake Formation 来实现,AWS Lake Formation 的权限进一步可以细分为数据资源目录访问权限和底层数据访问权限,分别对应元数据和实际存储的数据。实际存储数据的访问权限又进一步分为数据存取权限和数据存储访问权限。 综上,AWS 数据湖方案成熟度高,特别是元数据管理、权限管理上考虑充分,打通了异构数据源与各类计算引擎的上下游关系,让数据能够自由 “移动” 。在流计算和机器学习上,AWS 的解决方案也比较完善。在流计算方面,AWS 推出了专门的流计算组件 Amazon Kinesis,同时 Amazon Kinesis 还可以访问 AWS Glue 中的元数据,这一点也充分体现了 AWS 数据湖解决方案在生态上的完备性。 三、在 AWS 上构建数据湖 至此,围绕着数据湖 AWS 提供整个一套大数据解决方案,那么在每个阶段中,不同的数据类型和不同的分析需求应该如何满足,应如何调度和管理一个数据分析的应用呢? 如果我们在 AWS 上面一步步配置的话,那会变得非常困难,毕竟 AWS 围绕数据库有如此众多的服务,服务之间的关联和权限配置变得很复杂,这时候就需要一个工具来帮助用户把这些问题都搞定,AWS Lake Formation 可以帮助用户快速地搭建数据湖,并且引入了安全管理机制,真正地帮助用户保护数据湖。
说了这么多,那下面我们使用 AWS Lake Formation 去构建一个数据湖吧。 (编辑:新余站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |