Page 1 of 1

利用数据结构进行人工智能数据集成和管理

Posted: Sat Jan 25, 2025 3:52 am
by Mitu9900
到目前为止,在我们的数据管理博客系列中,我们研究了一些最常用的数据和信息框架,以及创建统一的数据 + 信息架构以实现大规模 AI 部署的必要性。

在第三篇博客中,我们探索数据架构的演变,并更深入地了解数据结构,这是领先的现代数据架构范例之一。

数据架构是一种蓝图,简而言之,它将组织的数据资产与其战略目标保持一致。多年来,数据架构方法发生了重大变化,以反映不断变化的数据特 阿塞拜疆手机数据 征(数量、种类、多样性等)、新兴技术(云、AI、ML 等)以及现代数字公司的动态。



数据架构的演变


不断发展的数据架构

资料来源: 不断发展的数据架构


数据架构大致分为三代:数据仓库、数据湖和数据结构或数据网格。数据仓库是首批专注于创建企业数据统一视图的方法之一。数据仓库是结构化数据的集中存储库,需要专门的数据团队来准备数据,主要供分析师使用。

数据湖在 2010 年代成为处理非结构化大数据的解决方案。数据湖大规模处理结构化、半结构化和非结构化数据,并将其以原生格式存储在集中式存储库中。数据湖架构使用提取、加载、转换(ELT) 流程,而不是提取、转换、加载 (ETL) 流程,即几乎不进行转换或直接加载数据。这使得数据在根据特定需求进行转换时具有更大的灵活性。尽管数据湖是当前数据架构的行业标准,但它们在数据可靠性、查询性能和治理方面仍然存在一些挑战。

数据在多个数据仓库和数据湖以及云和本地环境中的分布日益广泛,这增加了分布式数据的移动、转换、集成和交付的复杂性。因此,数据架构现在正在发展到主动元数据时代,涉及两种互补的方法:数据结构和数据网格。虽然数据网格为数据结构设置提供了有效的替代方案或补充,但在本博客中,我们仅关注数据结构解决方案。这绝不是数据结构优于数据网格的论点,未来的博客可能会探索数据网格路线。