关键词:数据血缘、元数据治理、metadata
元数据平台的作用以及如何构建
关键问题
- 怎么定义元数据?
- 元数据平台要解决哪些问题?
- 如何获取元数据?
- 数据来源规划
- 如何存储元数据?
- 数据血缘如何构建
- 如何提供元数据服务?
- 数据源变更处理方式
元数据是什么?
一般来说是数据的数据。具体来说,就是对动态数据的一种静态信息描述。狭义的元数据我们一般指的是数据集,表本身的信息(结构,量级,归属,修改历史)以及表与表之间的关系;实际在数据流处理中,元数据的类型可以按数据处理的生命周期来细分:
- 最原始的数据实体,称为
模式元数据
,如数据的表结构Schema信息,业务属性信息 - 数据实体之间的处理逻辑,叫做etl数据处理,接着有了数据实体的
关系元数据
,数据的血缘关系信息 - 对于这些数据处理的逻辑形式,需要调度器来物理化执行,所以有了
调度元数据
- 数据处理完成之后,需要发布报表,就有了
报表元数据
,各类统计信息 - 整体系统中,会涉及不同的用户实体,就有了
用户元数据
,读写记录,权限归属
元数据系统的建立,是企业级的信息化建设过程。
元数据平台是什么?
数据治理是一个庞大的系统,其中主要包括数据管控,数据质量,数据安全,数据标准。其中数据管控的目标是让每一项数据变更都能得到明确记录及授权,使得数据系统变得可控,可追溯。而数据管控的核心就是搭建元数据平台,这样才能开始数据的规范化,才能做到管控;
元数据平台解决什么问题?
通过元数据建设,为使用数据提效,解决“找数、理解数、评估”难题以及“取数、数据可视化”等难题。
- 数据问题:多种存储形式的数据来源(mysql、hive、hbase、es)、数据变化评率高;
- 数据使用问题:查看表信息(结构、量级、所属、是否可用)、表依赖(血缘统计);
- 数据管理问题:表权限管理、数据质量管控、数据接入管理;
元数据平台包含哪些功能?
核心功能是实现数据地图功能;数据地图以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
- 元数据采集
- 元模型构建
- 元数据服务
- 元数据应用
元数据来源
元数据的获取形式
pull
:元数据管理平台根据用户的数据源定制工具抓取元数据- 优点:用户不需要对接平台
- 缺点:平台维护成本高,用户数据结构变更后,可能需要重新对接
push
:用户调用元数据管理平台接口提交元数据更新- 元数据平台以消息队列异步处理
元数据的业务来源
- 知识线:智能问答、问答社区的埋点、反馈数据;
- 营销线:财税学院、学会app的埋点、用户、课程数据;
- 金融线:企业风控特征、贷后数据。
如何存储元数据?
元数据的主体主要是实体
以及关系
。
- 实体:user、dataset、report、job、metrics
- 数据实体用关系数据库存储,如MySQL
- 元数据之间的关系用图数据库存储,如Neo4j
- 用全文索引实现快速搜索,如ElasticSearch
如何提供元数据服务?
- API