如何将 AWS Glue 爬虫与 Amazon Athena 结合使用
作为数据专业人员,您需要处理来自各种来源的大量数据。这会使数据管理和分析成为一项挑战。幸运的是,两项 AWS 服务可以提供帮助:AWS Glue 和 Amazon Athena。
当您集成这些服务时,您可以充分发挥 AWS 生态系统中数据发现、分类和查询的潜力。让我们看看它们如何简化您的数据分析工作流程。
目录
什么是 Amazon Athena?
Amazon Athena 是一种来自开源框架的无服务器交互式数据分析服务。由于它支持开放表和文件格式,因此您可以快速轻松地在浏览器中对数据执行 SQL 搜索。查询数据(甚至是大数据)变得可以立即完成。
要深入了解这项服务,请参阅我们的文章《Amazon Athena 详解》。
什么是 AWS Glue?
AWS Glue是一项无服务器托管服务,可让您发现、准备、移动和集成来自多个来源的数据。作为一项数据集成服务,AWS Glue 使您能够在集中位置管理数据,而无需管理基础设施。
什么是 AWS Glue 爬虫?
Glue 爬虫是一种自动化数据发现工具,可扫描数据源以自动对其中的数据进行分类、分组和编目。然后,它会在 AWS Glue 数据目录中创建新表或更新现有表。
Glue 数据目录是什么?
AWS Glue 数据目录是数据位置、架构和运行时指标的索引。您需要此信息来创建和监控提取、转换和加载 (ETL) 作业。
为什么要使用 Amazon Athena 和 AWS Glue?
现在我们已经介绍了 Amazon Athena、AWS Glue 和 AWS Glue 爬虫的基础知识,让我们更深入地讨论它们。
4 个主要的 Amazon Athena 使用案例
Amazon Athena 提供了一种简单、灵活的方法来分析 PB 级数据。例如,Athena 可以使用 SQL 或 Python 分析来自 Amazon Simple Storage Service (S3) 数据湖和 30 个数据源(包括本地数据源或其他云系统)的数据或构建应用程序。
Amazon Athena 主要有四种用例:
在 S3、本地数据中心或其他云上运行查询
为机器学习模型准备数据
使用 SQL 查询或 Python 中的机器学习模型来简化复杂任务,例如异常检测、客户群分析和销售预测
执行多云分析(例如在 Azure Synapse Analytics 中查询数据,然后使用 Amazon QuickSight 可视化结果)
3 个关键 AWS Glue 用例
我们已经介绍了 Amazon Athena,现在来谈谈 AWS Glue。您可以使用 AWS Glue 做几件不同的事情。
首先,您可以使用 AWS Glue 数据集成引擎,它允许您从几个不同的来源获取数据。这包括 Amazon S3、Amazon DynamoDB 和 Amazon RDS,以及在 Amazon EC2 上运行的数据库(与 AWS Glue Studio 集成)和 AWS Glue for Ray、Python Shell 和 Apache Spark。
一旦数据被接口和过滤,它就可以与加载或创建数据的地方交互,这个列表就会扩展为包括来自 Amazon Redshift、数据湖和数据仓库等地方的数据。
您还可以使用 AWS Glue 运行 ETL 作业。这些作业允许您隔离客户数据、保护传输中和静止的客户数据,并仅在响应客户请求时根据需要访问客户数据。在配置 ETL 作业时,您需要做的就是在虚拟私有云中提供输入数据源和输出数据目标。
使用 AWS Glue 的最后一种方式是通过数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。对数据进行分类后,即可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrums 进行搜索和查询。
开始使用 AWS Glue:如何将数据从 AWS Glue 传输到 Amazon Athena
那么,如何将数据从 AWS Glue 导入 Amazon Athena?请按照以下步骤操作:
首先将数据上传到数据源。最受欢迎的选项是 S3 存储桶,但 DynamoDB 表和 Amazon RedShift 也是选项。
选择数据源并根据需要创建分类器。分类器会读取数据并在识别格式后生成架构。您可以创建自定义分类器来查看不同的数据类型。
创建一个爬虫。
为爬虫设置一个名称,然后选择数据源并添加任何自定义分类器,以确保 AWS Glue 能够正确识别数据。
设置身份和访问管理 (IAM) 角色以确保爬虫可以正确运行流程。
创建一个用于保存数据集的数据库。设置爬虫程序的工作时间和频率,以保持数据新鲜和最新。
运行爬虫。此过程可能需要一段时间,具体取决于数据集的大小。爬虫成功运行后,您将看到数据库中表格的变化。
现在您已完成此过程,您可以跳转到 Amazon Athena 并运行所需的查询来过滤数据并获取您想要的结果。
使用 AWS Glue 爬虫和 Amazon Athena 简化数据分析
我希望这能让您了解有关 AWS Glue 爬虫程序和 Amazon Athena 的一些信息。如果您想了解有关 Amazon Athena 的更多信息以及它如何与 AWS Glue 和其他服务配合使用,您可以查看我的新课程 Amazon Athena Deep Dive。
我们的实验室“使用 AWS Glue 和 Amazon Athena 转换数据”也可以让您亲身体验这些服务。注册10 天免费试用,无需承诺,即可开始您的学习之旅。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~