0%

如何从零搭建元数据管理平台

关键词:数据血缘、元数据治理、metadata

元数据平台的作用以及如何构建

关键问题

  • 怎么定义元数据?
  • 元数据平台要解决哪些问题?
  • 如何获取元数据?
    • 数据来源规划
  • 如何存储元数据?
    • 数据血缘如何构建
  • 如何提供元数据服务?
    • 数据源变更处理方式

元数据是什么?

一般来说是数据的数据。具体来说,就是对动态数据的一种静态信息描述。狭义的元数据我们一般指的是数据集,表本身的信息(结构,量级,归属,修改历史)以及表与表之间的关系;实际在数据流处理中,元数据的类型可以按数据处理的生命周期来细分:

  1. 最原始的数据实体,称为模式元数据,如数据的表结构Schema信息,业务属性信息
  2. 数据实体之间的处理逻辑,叫做etl数据处理,接着有了数据实体的关系元数据,数据的血缘关系信息
  3. 对于这些数据处理的逻辑形式,需要调度器来物理化执行,所以有了调度元数据
  4. 数据处理完成之后,需要发布报表,就有了报表元数据,各类统计信息
  5. 整体系统中,会涉及不同的用户实体,就有了用户元数据,读写记录,权限归属
    元数据系统的建立,是企业级的信息化建设过程。

元数据平台是什么?

数据治理是一个庞大的系统,其中主要包括数据管控,数据质量,数据安全,数据标准。其中数据管控的目标是让每一项数据变更都能得到明确记录及授权,使得数据系统变得可控,可追溯。而数据管控的核心就是搭建元数据平台,这样才能开始数据的规范化,才能做到管控;

元数据平台解决什么问题?

通过元数据建设,为使用数据提效,解决“找数、理解数、评估”难题以及“取数、数据可视化”等难题。

  • 数据问题:多种存储形式的数据来源(mysql、hive、hbase、es)、数据变化评率高;
  • 数据使用问题:查看表信息(结构、量级、所属、是否可用)、表依赖(血缘统计);
  • 数据管理问题:表权限管理、数据质量管控、数据接入管理;

元数据平台包含哪些功能?

核心功能是实现数据地图功能;数据地图以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。

  1. 元数据采集
  2. 元模型构建
  3. 元数据服务
  4. 元数据应用

元数据来源

元数据的获取形式

  • pull:元数据管理平台根据用户的数据源定制工具抓取元数据
    • 优点:用户不需要对接平台
    • 缺点:平台维护成本高,用户数据结构变更后,可能需要重新对接
  • push:用户调用元数据管理平台接口提交元数据更新
    • 元数据平台以消息队列异步处理

元数据的业务来源

  1. 知识线:智能问答、问答社区的埋点、反馈数据;
  2. 营销线:财税学院、学会app的埋点、用户、课程数据;
  3. 金融线:企业风控特征、贷后数据。

如何存储元数据?

元数据的主体主要是实体以及关系

  • 实体:user、dataset、report、job、metrics
  • 数据实体用关系数据库存储,如MySQL
  • 元数据之间的关系用图数据库存储,如Neo4j
  • 用全文索引实现快速搜索,如ElasticSearch

如何提供元数据服务?

  • API

参考