了解 Azure Synapse Analytics
介绍
Azure Synapse Analytics(以前称为 Azure 数据仓库)是 Microsoft 开发的一款新型分析引擎。但这项新服务不仅代表了名称的改变,还代表了 Azure 内分析方式的演变。我们将在本指南中详细介绍。
一体式
Azure Synapse Analytics 是任何现代数据管理环境中功能强大、功能多样的引擎。该引擎的优势在于它是一体化的,即它在单一服务中提供多种工作方式和技术,以创新和适度的方式简化和统一数据开发和管理流程。
它提供的功能包括:
- 数据仓库:已经流行的 Azure 数据仓库技术用于存储和管理数据以供分析和决策,现在通过 SQL 池。
- 大数据引擎:借助 Spark 池,工程师现在可以使用 Spark 语言运行可扩展分析来执行大数据处理。
- 无服务器引擎:以简单的方式直接使用SQL语句查询数据湖。
- 数据流:使用与 Azure 数据工厂相同的引擎开发使用或接收数据仓库或数据湖中的数据的 ETL 流。
SQL 池
在 Synapse Analytics 中,可以通过 SQL 池使用数据仓库,这使你能够通过可扩展的计算机数量和大小的群集查询数据库。
除了池扩展的优势之外,您还可以根据角色和查询类型分配处理级别和池资源。您可以在行和列级别添加安全性,以便只有相应的用户才具有某些访问权限。
最后,您可以完成使用 Azure 数据仓库所做的所有操作,但方式更符合当前技术的现代性。
火花矿池
如果除了对数据仓库中的数据进行 SQL 查询之外,您还需要执行其他类型的查询和数据转换,则可以利用 Spark 引擎在笔记本中创建流程,类似于在其他技术(例如 Databricks)中执行的操作。
Spark 池允许您使用 Python、SQL 甚至 C# (.NET) 在大数据环境中处理数据,您可以根据需要配置和扩展数据。(确定您需要多少台机器,或者是否应该根据特定时间的必要处理自动扩展。)
您可以根据需要创建任意数量的池,例如,一个用于生产流程,另一个用于您的工程师和数据科学家探索数据仓库或数据湖。
无服务器
除了池之外,您还可以直接对数据湖进行查询(使用 Azure Data Lake Gen2),这将帮助您以简单的方式对文件和目录执行 SQL 语句,只需为该查询产生的消耗付费,而无需为临时查询建立集群 - 即在无服务器环境中。
在每个 Synapse Analytics 环境中,无服务器模式已经可用,要使用它,您唯一的工作就是将 Synapse 与 Azure Data Lake Gen2 存储库连接起来以供使用(当然,对该存储库进行适当的治理,以充分利用无服务器引擎的所有潜力)。
与其他服务的连接
- PowerBI:将您的数据直接连接到 PowerBI 数据集,以最佳且简单的方式显示和开发您的报告和仪表板。
- 数据工厂:利用 Synapse Analytics 数据流和 Azure 数据工厂优势,实现最强大的 ETL 流程。
- 机器学习:利用 Spark 流程开发模型并通过 Azure 机器学习公开它们,从而使您的分析流程互联、可扩展且高度可用。
课程
如果你想了解有关 Synapse 的更多信息,Pluralsight 有几门课程专门介绍这项伟大的技术。以下是其中一些:
- 在 Microsoft Azure Synapse Analytics 中实现云数据仓库:https://www.pluralsight.com/courses/microsoft-azure-implementing-cloud-data-warehouses
- 部署 Microsoft Azure Synapse Analytics 和 Azure SQL 数据库:https://www.pluralsight.com/courses/microsoft-azure-sql-data-warehouse-sql-database-deploying
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~