数据治理系列干货分享|概念篇:数据架构&数据模型&数据目录,你分清楚了吗?
进入数据时代,“数据是公司的核心资产”已经成为企业共识,如何有效利用数据资产发挥数据价值,面临的首要问题是“企业到底有哪些数据、数据在哪里、数据长什么样”。
说起资产盘点,我们总会听到很多概念:数据资源目录、数据架构、数据分布、数据流向、数据模型,那么:
数据资源目录与数据模型什么关系?
数据资源目录与数据架构什么关系?
数据模型与业务域什么关系?
数据模型与数据架构什么关系?
数据资源目录与业务域什么关系?
……
数据架构:企业数据的总蓝图
建筑架构 VS 数据架构
随着人们对建筑需求的增多,使得空间划分和组合的方式也多了起来。需要区分厨房、书房、卧室、客房等,怎样南北通透、怎样避震效果好……,简单点理解,这就是建筑架构师的工作。优秀的建筑架构师还会思考:“在这栋建筑建成后的漫长岁月里,人们会如何使用并提升幸福感?”
建筑架构的目的是让房子更宜居,数据是业务的映射,同样地数据架构的目的是让数据的理解、使用更顺畅。因此,无论是DAMA还是《华为数据之道》都指明,数据架构的目的就是“确保各类数据在企业各业务单元间高效、准确地传递,上下游流程快速地执行和运作”。
数据架构定义了对组织非常重要元素的标准术语和设计。企业数据架构的设计包括业务数据描述,如数据的收集、存储、整合、移动和分布。当数据在组织中通过源或接口流动时,需要安全、集成、存储、记录、分类、共享的报表和分析,最终交付给利益相关方使用。在这个过程中,数据可能会被验证、增强、链接、认证、整合、脱敏处理以及用于分析,直到数据被归档或清除。企业数据架构描述必须包括企业数据模型和数据流设计。 摘自【DAMA数据管理知识体系指南DAMA-DMBOK2】
数据模型:促进业务与技术的有效沟通
数据模型是使用结构化的语言将收集到的组织业务经营、管理和决策中使用的数据需求进行综合分析,按照模型设计规范将需求重新组织。从模型覆盖的内容粒度看,数据模型一般分为主题域模型、概念模型、逻辑模型和物理模型。
1)主题域模型是最高层级的、以主题概念及其之间的关系为基本构成单元的模型,主题是对数据表达事物本质概念的高度抽象;
2)概念模型是以数据实体及其之间的关系为基本构成单元的模型,实体名称一般采用标准的业务术语命名;
3)逻辑模型是在概念模型的基础上细化,以数据属性为基本构成单元;
4)物理模型是逻辑模型在计算机信息系统中依托于特定实现工具的数据结构。
从模型的应用范畴看,数据模型分为组织级数据模型和系统应用级数据模型。组织级数据模型包括主题域模型、概念模型和逻辑模型三类,系统应用级数据模型包括逻辑模型和物理数据模型两类。
制造业典型数据模型示例
主题域模型
主题:是在较高层次上将企业的数据进行归类、分析的抽象概念,每一个主题通常对应一个宏观层面的业务领域/业务板块。
主题域:是企业数据组织的重要分类方式,也是数据认责的一个重要维度。主题域的划分,通常遵循“不交叉、不重叠、不遗漏”原则。
某制造业主题域模型示例
概念模型
概念模型:是对主题域模型的进一步细化,定义了企业内主要业务实体及实体之间的业务关系(E-R图),不描述业务实体的数据属性。
实体:是客观存在并可相互区别的事物。实体应包含描述性信息,如果一个数据元素有描述性信息,该数据元素应被识别为实体。如果一个数据元素只有一个标识名,则其应被识别为属性。
研发管理域实体示例
生产准备域概念模型示例
逻辑模型
逻辑模型:是对概念模型的进一步分解和细化,需要通过关键数据属性描述更多的业务细节,包括实体、属性以及实体关系。
逻辑模型通常包括关键的数据属性,不是全部的实体和全部的属性。关键数据属性,是指如果缺失,企业业务将无法运转,它的识别和设计具有一定的主观性,需要依托企业运行的业务流程及业务活动判断。
质量管理某子主题的逻辑模型
说明:
通常情况下,各类数据项目开展过程中所说的数据架构设计是指主题域模型设计、概念模型设计、逻辑模型设计,而物理模型设计通常是数据建模的产出物。
数据流向:描述数据的“来龙去脉”
数据流向用于描述数据如何在业务流程和系统中流动。端到端的数据流包含了数据起源于哪里,在哪里存储和使用,在不同流程和系统内或之间如何转化。数据流可以通过二维矩阵或者数据流图的方式呈现。
通过数据流向的梳理,明确数据的“数据源头”,业务上首次正式发布该项数据的应用系统,配合数据管理组织的认证,作为企业范围内唯一的数据源头被周边系统调用。
数据目录:企业数据盘点的成果物
图书目录VS数据目录
想象下,当您在图书馆查找某一图书时,怎么样最快地了解它的版本、位置以及出版社、主编等信息。企业数据目录之于数据,正如图书目录之于图书,数据资源目录是一个完善企业资产地图,也为企业数据治理提供了指引,数据资源目录需要能够回答“企业数据有哪些”、“企业数据如何分布”、“企业数据在哪里”、“企业数据长什么样”等问题。
数据资源目录需要对数据进行归类,以方便数据使用人员快速找到数据、理解数据。数据资源目录的归类可以按照业务维度、数据结构类型维度(结构化、非结构化、半结构化)、业务系统维度等,大部分实际项目的落地过程中,我们会选择主题域维度,这是企业组织数据、使用数据最方便、快捷、易懂的一个维度。
《华为数据之道》的数据资产目录涵盖了华为公司的所有业务数据资产,也是将业务主题域分组作为了描述公司数据管理的最高层级分类,书中提到“业界通常有两种数据资产分类方式,基于数据自身特征边界进行分类、基于业务管理边界进行分类。华为公司为了强化企业内业务部门的数据管理责任,更好地推进数据资产建设、数据治理和数据消费建设,采用业务管理边界划分方式。”
数据资源目录五层体系包括主题域一主题一业务对象一实体一属性。
以生产制造为例:
L1主题域为“生产制造管理域”;
L2主题可细化为“生产计划管理”、“制造执行管理”、“外协管理”、“设备管理”;【实际项目落地过程
中,主题有可能会再划分,出现子主题,需要根据实际业务的复杂程度确定】;
L3业务对象可包含“物料需求计划”、“外协计划”、“领料单”、“车间计划”、“生产进度信息”、“设备维
修维护信息”、“产品”等;
L4实体可以为“产品基本信息”、“产品生产信息”、“产品质量信息”等;
L5属性为产品基础信息中包含的“产品代码”、“产品名称”等。
说明:
那么,数据资源目录与数据模型有没有关系呢?
实际上,数据资源目录是对企业数据的一种组织维度,而前面讲到,业务是最容易理解的一个维度,所以它可以沿用数据模型的一些层级。比如:L1主题域、2组主题沿用主题域模型即可、L3业务对象、L4实体也会引用概念模型设计阶段识别的实体等。
至此,我们讲清楚了数据架构包括的数据模型与数据流向,也阐述了数据资源目录的用途及通常组织方式。
那么,问题来了:
主题域应该如何划分呢?
实体是不是等同于表单呢?
罗辑模型的关键属性依据是什么呢?
数据流向是怎么画出来的?
数据资源目录应该如何梳理呢?
数据治理的伙伴们,我们下期见!
原文链接: