自动化发布过程

Showcase, discuss, and inspire with creative America Data Set.
Post Reply
Bappy11
Posts: 477
Joined: Sun Dec 22, 2024 9:27 am

自动化发布过程

Post by Bappy11 »

决定已经做出:您的组织选择 Azure 数据仓库。
现在是时候将所有数据集成到Azure中了。但在开始之前,您需要做出一些重要的选择,这些选择会影响成本和交货时间。我已为您列出了最重要的五个。

1)选择安全
第一个选择是关于设置安全性。特别是如果您处理(特殊)个人数据,我建议您将所有 Azure 服务与公共互联网隔离开来。您可以使用 VNETS(虚拟网络)来实现这一点,它允许多种类型的 Azure 资源彼此之间、与 Internet 以及本地网络进行安全通信。私有端点也有助于实现这一点,因为这些网络接口使用虚拟网络的私有 IP 地址。这样,只能通过公司自己的网络访问服务。这是必要的,因为 Azure 提供许多服务来存储和处理数据。此外,不同的开发人员、管理员和用户经常需要访问这些数据和服务。当然,您可以选择为每项服务保留一个列表,以便您知道从哪里可以访问,例如通过 IP 地址白名单。但这很费力,而且出错的几率很高。

在开发数据仓库(DWH)时,需要采取几个步骤才能最终将开发的代码投入生产:开发、测试、验收和生产(OTAP)。经过测试后,可以在生产环境中实现新的或更改的功能。开发的代码的传输通常是手动完成的。这会花费很多时间并且容易出错。当您因忘记运行脚本而导致生产中断时,您会多么恼火?所以如果可以实现这个自动化的话就太好了。

3)节省成本
在 Azure 中,您可以通过关注使用服务的时间和频率来节省资金。某些服务(例如 SQL 数据库)可以设置为容量级别。如果使用更高的容量,您将拥有更高的处理能力,但因此成本也会更高。扩大和缩小规模也可通过数据驱动来完成。这可以基于固定时间,也可以基于例如过去一段时间的加载时间。这样,您就可以智能地实现自动化,并且不必再担心它。这样,您就可以确保只为实际使用的 Azure 容量付费。

4)消除手工劳动
没有什么比单调重复的体力劳动更令人烦恼的了。但是,当您向 Azure DWH 公开许多不同的数据源时,这是一个潜在的问题。源系统中的每个表或文件都需要一个新的加载过程。总而言之,这需要大量的点击,你可以想象很容易犯错误。特别是当您想解锁数十个甚至数百个表和文件时。幸运的是,云可以为您完成这项工作。使用 Azure Synapse Pipelines(Azure 的 ETL(提取转换加载)工具),您可以捕获有关资源和元数据的信息。一切充电过程都是在此基础上产生的。只需单击几下按钮,即可自动解锁 纳米比亚电报数据 必要的资源。然后你就可以开始更具挑战性的工作:将原始数据转化为见解。

5)从大处着眼,从小处着手
Azure 中的选择非常多:有超过 200 种可用服务,其中 50 多种适合加载、存储、转换和可视化数据。每项服务都有自己的特色、价格标签和用户手册。为了构建智能且为未来做好准备的数据仓库,规划出您的组织需要哪些服务是很有用的。许多人尚未处理大量半结构化或非结构化数据。他们主要希望在 Power BI 等 BI 工具中处理和可视化其结构化数据。近实时可用性通常也是不必要的。可扩展的 Azure SQL 数据库、Azure 数据湖和 Azure 数据工厂就足够了。但是您是否想(并行)处理大量数据并用它进行预测?那么使用 Azure Synapse Analytics 是值得的。在选择使用哪些服务时,以下原则尤其适用:从大处着眼,从小处着手。

最后,作为一个黄金建议,我建议你不要(完全)自己做这件事。寻找曾经做过这件事的专业人士。这样你就可以避免不必要的陷阱。我们非常乐意为您提供帮助。

想要了解有关构建数据仓库的更多信息吗?
留下您的详细信息,我们的一位专家将会与您联系。


联系我们
更多数据和人工智能博客
Post Reply