利用基于 Web 的应用程序加速元数据发现

业界越来越关注如何利用元数据来提高数据专家的工作效率。例如，该领域开发的工具包括 Airbnb 的 Dataportal、Uber 的 Databook、Netflix 的 Metacat、Lyft 的 Amundsen，以及最近推出的 Google 的 Data Catalog。

许多公司正在不断扩展其基础架构，以跟上其不断扩展的大数据生态系统的步伐。随着数据量和种类的增长，数据专家和工程师发现可用数据资产、了解其沿袭并根据数据洞察采取适当行动变得越来越耗时。在本文中，我们将讨论如何使用基于 Web 的应用程序加速元数据发现过程。

为什么收集元数据很重要

数据只有在提供上下文的元数据伴随时才有价值。然而，元数据需要高效的发现能力才能发挥作用；否则，元数据就无法得到充分利用。以下我列出了元数据收集带来的好处。

监管合规

元数据发现简化了 GDPR 等合规流程，允许快速识别和管理敏感数据。
识别更改
它简化了跨系统流程的数据字段的定位和更新，减少了更新期间的工作量和潜在错误。

数据迁移

在 BI 系统迁移期间，元数据发现有助于决定传输哪些数据，从而确保高效且经济的迁移。

自动化数据沿袭

元数据发现对于自动化数据沿袭至关重要，通过映射数据旅程可以实现有效的根本原因和影响分析。

改进数据治理

通过获取有关数据来源、使用情况和所有权的详细信息，我们可以促进稳健的数据治理。这意味着数据政策将得到有效执行，公司可以逐步实现更加标准化的数据处理实践。

增强数据质量

除此之外，元数据有助于识别数据异常、冗余和不一致，这使我们能够及时进行纠正并提高数据质量。

数据分析和商业智能支持

如果分析师拥有详细的元数据，他们就能理解数据的转换和使用情况。这对于更准确、更有意义的分析至关重要。

运营敏捷性

元数据收集有助于提高运营敏捷性。借助元数据，我们可以清晰地了解数据流和依赖关系，从而快速响应不断变化的业务需求。

数据目录创建

它支持数据目录的创建和更新，数据目录可以组织和定义数据资产，从而促进整个公司数据格局的一致性和信任。

换句话说，我们需要高效的元数据发现，将数据收集转化为可操作的见解，这将使我们能够提高生产力和合规性，同时减少错误和低效率。

在数据目录和元数据管理中，元数据通常分为三大类：技术元数据、业务元数据和操作元数据。

技术元数据包含有关数据资产结构的详细信息，例如模式定义、表结构、列类型和数据关系。它还包含有关 ETL 流程、数据沿袭（追踪数据来源和转换）以及存储详细信息（例如数据库位置和文件路径）的信息。

业务元数据致力于提供数据元素的清晰定义，指定应用于数据的业务规则和约束，并识别负责数据资产的数据所有者、管理员和主题专家。它还包含解释数据目的、用途和业务相关性的上下文信息。

操作元数据涉及捕获使用情况统计数据以了解如何访问和使用数据资产、与数据系统相关的性能指标、跟踪变化和用户活动的审计日志以确保合规性，以及评估数据准确性、完整性、一致性和及时性的数据质量指标。

什么是数据目录以及如何构建它

数据目录是一个综合工具，用于组织公司信息环境中的所有数据资产。数据目录中的每个条目都包含定义、描述、评级以及数据所有者和管理员的详细信息。这种组织方式使搜索和识别各种用途所需的数据变得简单。

自助服务 BI 用户

自助式 BI 用户能够弥合 IT 与业务之间的差距，并从数据目录中获益良多。他们可以轻松发现和评估数据，找到相关的数据资产来构建有效的报告。此外，他们还可以在目录框架内与主题专家互动，确保问题得到解答并记录下来，以供日后参考。

商业用户

业务用户可以通过以下方式独立地利用数据创造价值：

在多个工具中定位所有相关报告。
检查报告中使用的数据集的详细信息，了解其范围，并在目录内直接协作以保存和共享知识。
识别现有报告以避免重复工作。一般数据用户任何数据用户都可以使用目录来回答以下问题：
在哪里可以找到具体数据。
数据的相关性和重要性。
数据来源和责任方。
正确的数据使用和当前用户。

如何构建数据目录

下面我列出了创建数据目录的步骤，该目录可以进一步用于上述目的：

确定要记录哪些元数据，包括技术和业务描述、资产类型、责任方和标签。
选择编写框架或使用现有工具，重点关注可搜索性、过滤、数据资产评估和自动化等基本功能。
使用自动化目录解决方案来调查您的 BI 环境并从各种工具中提取现有元数据，从而有效地填充数据目录。
需要人工审查来丰富定义并确保数据消费者可以独立使用数据。
集成数据沿袭工具，深入了解数据在 BI 环境中的旅程。此集成功能可快速访问端到端沿袭，帮助数据管理员追踪数据流、解答准确性问题并建立对数据的信任。
定期更新和维护数据目录，以确保其准确性和相关性。

加速数据目录创建的五大工具

除了手动创建数据目录外，还有一系列工具可以促进这一过程，使其变得更快、更高效。

Apache Atlas 是一个用于各种数据生态系统内全面元数据管理和治理的开源框架。

Apache Atlas 提供了丰富的 REST API，用于编程交互，有助于元数据管理、治理以及与其他系统的集成。借助此工具，公司可以更快地开展研究，并获得可靠可靠的数据。此外，该平台还能高效处理任何 IT 溢出，并确保无缝分发和管理。由于海量数据搜索和报告生成始终难以管理，Apache Atlas 是数据驱动型企业的理想工具。

Apache Airflow Apache Airflow 是一款用于编排复杂计算工作流和数据处理管道的工具。它提供广泛的跨平台集成，可与几乎所有必要的技术无缝连接。其突出特性之一是能够使用 Python 创建有向无环图 (DAG)，使工作流创建变得直观灵活。此功能对许多流程至关重要，尤其是在将工作流与报告集成、提高各种任务的效率和自动化方面。

Airflow 自动化填充和更新由 Apache Atlas 管理的数据目录的数据工作流，包括数据提取、转换和定期元数据刷新等任务。

Docker/Kubernetes 与 Helm
Docker 容器标准化了应用程序及其依赖项的打包。Kubernetes 管理容器化应用程序的部署、扩展和运维。Helm Chart 有助于简化 Kubernetes 应用程序的配置和管理。
这些工具确保数据目录的所有组件（包括 Apache Atlas 和 Apache Airflow）都一致部署，并可在不同环境中动态扩展。
MongoDB
是一款灵活的 NoSQL 数据库，以其高性能和高可扩展性而闻名。
在数据目录环境中，MongoDB 用于存储次要的非元数据信息，例如用户配置文件、访问日志和交互数据。这有助于管理用户访问并增强目录中的个性化功能。
Grafana
Grafana 是一款用于创建动态仪表板的可视化工具。它能够直观地洞察数据目录的操作和用户交互，从而帮助监控数据工作流的性能，并维护整个系统的健康。

总结

毫无疑问，精通源于实践。但我也建议你学习一些理论知识，因为你能从中找到非常有价值的见解。以下是我推荐的书籍：

Kristin Briney 著的《研究人员数据管理：组织、维护和共享数据，助力研究成功》。本书虽然面向研究人员，但涵盖了适用于任何领域的数据管理原则，包括元数据。Jeffrey Pomerantz 著的《元数据》也非常适合初学者入门。本书全面介绍了元数据、其用途和应用，涵盖了元数据的基础知识及其在数据发现和管理中的重要性。

文章来源：https://dev.to/shmyhelskyi/acceleating-metadata-discovery-with-web-based-applications-bm0