AWS Glue(Amazon Glue)是由亚马逊云科技推出的简单、可扩展且无服务器的数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习和应用程序开发的工作。AWS Glue的优势有很多,包括更快的数据集成、无需管理服务器和大规模自动执行数据集成等。
一、AWS Glue是什么
Amazon Glue是一项无服务器数据集成服务,可以让用户轻松发现、准备和合并数据,以便进行分析、机器学习和应用程序开发。Glue提供有数据集成所需的所有功能,从而让用户只需几分钟而不是几个月即可开始分析用户的数据并即可将其付诸使用。
AWS Glue提供有可视化和基于代码的界面,可以让数据集成更加轻松。用户可以使用Glue数据目录轻松查找和访问数据。数据工程师和ETL(提取、转换和加载)开发人员可以创建并运行ETL工作流程。
亚马逊云科技官网目前为用户提供免费Amazon Glue试用服务,用户可以点击下方链接创建免费账户,在控制台领取免费Amazon Glue套餐。
点击进入:亚马逊云科技官网
二、AWS Glue工作原理
1、构建事件驱动的ETL管道
当新数据到来时,Amazon Glue可以运行用户的ETL作业。例如,用户可以使用Amazon Lambda函数来触发ETL作业,以在Amazon S3中有新数据可用时立即运行。用户还可以将这个新数据集注册到AWS Glue Data Catalog中,作为ETL作业的一部分。
2、跨多个数据存储查找数据
用户可以使用Amazon Glue Data Catalog快速发现和搜索多个Amazon数据集,而无需移动数据。在存储到目录中之后,数据立即可供使用Amazon Athena、Amazon EMR和Amazon Redshift Spectrum进行搜索和查询。
3、自助式可视化数据准备
AWS Glue DataBrew使用户能够直接从数据湖、数据仓库和数据库(包括Amazon S3、Amazon Redshift、Amazon Lake Formation、Amazon Aurora和Amazon RDS)中探索和试验数据。用户可以从Amazon Glue DataBrew中的250多种预构建转换中进行选择,以自动执行数据准备任务,例如筛选异常、标准化格式和纠正无效值。数据准备就绪后,用户可以立即将其用于分析和机器学习。
三、AWS Glue优势
1、更快的数据集成
组织中的不同组可以使用Amazon Glue协同执行数据集成任务,包括提取、清理、规范化、合并、加载和运行可扩展的ETL工作流。这样用户可以将分析数据并将数据付诸使用所需的时间从几个月缩短到几分钟。
2、无需管理服务器
AWS Glue在无服务器环境中运行。没有要管理的基础设施,且Glue会预置、配置和扩展运行数据集成作业所需的资源。用户只需为作业运行时使用的资源付费。
3、大规模自动执行数据集成
Amazon Glue可自动执行数据集成所需的大部分工作。Glue可以抓取用户的数据源、识别数据格式并建议存储数据的架构。它会自动生成用于运行数据转换和加载过程的代码。用户可以使用Glue轻松运行和管理数千个ETL作业,或者使用SQL在多个数据存储之间合并和复制数据。