数据治理:数据标准管理的内容和实践

时间:2023-01-10
来源:谈数据
作者: 石秀峰

数据标准管理是数据管理的基础性工作,是企业数据治理的首要环节,对于企业厘清数据资产、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用。

01什么是数据标准?

笔者经常会问客户一个问题:什么是客户?有些客户对这个问题不屑一顾,觉得这算什么问题呀,自己天天和客户打交道,难道还不清楚什么是客户吗?然而事实上笔者听到的是不同的人对“客户”的不同理解,并不一致。

财务会计说:“客户就是与我们发生业务往来、需要进行应收应付记账的组织或个人。”销售人员说:“买了我产品或服务的就是我们的客户呀。”市场人员说:“有潜力和意向采购我们产品和服务的人都是我们的客户。”等等。

在很多企业中经常会出现,因为大家对于同一个事物的理解不同而造成沟通不畅,有时还会为某个事物的定义(或含义)争论不休且未得出结论。归根到底,这是缺乏统一的数据标准造成的。

“数据标准”并非一个专有名词,而是一系列规范性约束的抽象。数据标准的具体形态通常是一个或多个数据元的集合。

以下是关于数据标准的解释,供参考:

数据标准是各部门之间关于通用业务术语的定义,以及这些术语在数据中的命名和表示方式的协议。

数据标准是一组数据元的组合,可以描述如何存储、交换、格式化及显示数据。

数据标准是一组用于定义业务规则和达成协议的政策和程序,标准的本质不仅是元数据的合并、数据的形式描述框架,甚至还是数据定义和治理的规则。

数据标准是企业各个利益相关者希望共同发展的一种共同语言。

数据标准是用于数据集成和共享的单一数据集,是数据分析和应用的基础。

02数据标准的作用

数据标准适用于业务数据描述、信息管理及应用系统开发,既可作为经营管理中所涉及数据的规范化定义和统一解释,也可作为数据管理的基础,同时也是在应用系统开发时进行数据定义的依据。

在企业的数据管理和数据应用中,数据标准除了能防止数据对象、数据属性的定义之间的冲突,还对企业应用系统的集成和数据分析挖掘具有重要意义。

数据标准可以增强各业务部门对数据理解的一致性,提升沟通效率。

数据标准可以减少数据转换,促进系统集成和信息资源的共享。

数据标准可以促进企业级单一数据视图的形成,支持数据管理能力的发展。

数据标准有助于对数据进行统一规范的管理,消除各部门间的数据壁垒,支持业务流程的规范化。

数据标准有利于提高数据质量。可以基于数据标准的规范化定义对企业数据质量进行检查,找出有问题的数据,出具数据质检报告。

数据标准有利于规范化管理数据资产。数据标准是数据资产梳理和定义的基础。对于一家拥有大量数据资产或者要实现数据资产交易的企业而言,构建数据标准是一件必须做的事情。

03数据标准管理的3个常见问题

在数据标准管理过程中经常会遇到各种问题和挑战,例如:在制定数据标准的过程中,各业务部门都从自己的业务角度出发,从而难以形成统一的数据标准的定义。再如,不同语境下的数据定义存在歧义,数据标准的制定与使用脱节等,造成数据标准在实际业务中用不起来。

1、数据语义不清晰

当独立使用一个系统时,相关业务术语、相关联语义可能是一致的,但如果需要在两个或多个环境之间比较,含义上的细微差别就会被放大。例如:CRM系统中的“客户”数据是包含意向客户、潜在客户的,而财务管理系统中的“客户”是产生了财务往来的“客户”,两个系统的“客户数据量”统计差距很大。

2、数据定义和使用语境

数据定义的歧义主要表现在同名异义、同义异名的情况。

同名异义是指名称相同但代表的含义不同,常见的是相同名称的数据在不同的语境中所代表的含义是不同的。比如“黑色”,用作描述物体属性时,它代表一种颜色,而用来形容人心时,它就代表着邪恶或伪善。

同义异名是指含义相同但命名不同的情况,比如,同样的“姓名”有“员工姓名”和“职工姓名”两种叫法,很可能开发人员给它们定义的标识分别为“YGXM”和“ZGXM”。

在数据标准化的过程中,不仅要定义数据元素的标准,还需要描述该数据元素使用的语境。建议企业采用集思广益的方式将模棱两可的数据定义暴露出来,以便提升企业对数据标准化,以及企业相关人员对数据语义的共同理解和认知。

3、标准的制定和使用两层皮

数据标准是数据一致性、完整性、准确性的保证,是数据分析、数据集成的基础。数据标准的建立需要经过审批、发布,然后是推广和使用。同时,还需要评估数据标准的落地情况,通过评估定位数据问题并进行整改,以保证制定出的数据标准被正确使用,避免标准制定和标准执行两层皮。

04数据标准管理内容

一套完整的数据标准体系是企业数据管理和应用的基础,有利于打通数据底层的互通性,提升数据的可用性,消除数据业务歧义。

企业的数据标准一般包含4方面内容:数据模型标准、基础数据标准、主数据与参考数据标准、指标数据标准。

1、数据模型标准

数据模型标准化是对每个数据元素的业务描述、数据结构、业务规则、质量规则、管理规则、采集规则进行清晰的定义,让数据可理解、可访问、可获取、可使用。数据模型反映的是对业务的理解和定义,能够帮助企业建立组织内部和组织之间沟通的桥梁。数据模型可以用于识别丢失和冗余的数据,并且有助于在ETL过程中记录数据映射。

数据模型标准通过技术元数据、业务元数据进行模型描述,将业务信息和技术信息完整体现在数据模型中,并确保数据模型能够准确、完整地反映业务需求和相关技术约束,如图所示:

1.png

数据模型要准确反映业务需求。如果数据模型不能够准确反映业务需求,会令整个数据模型的实用性和价值大打折扣,很难达到预期效果。

2、基础数据标准

基础数据是系统的数据字典,在系统初始化时就存在于系统数据库中,是结构性或功能性的支撑。例如:国家地区、行政区划、邮政编码、性别代码、计量单位代码等。

基础数据标准一般会涉及国际标准、国家标准和行业标准。在定义数据实体或元素时可以引用相关标准,再根据企业的需求不断补充完善、更新优化和积累,以便更好地支撑业务应用的开发、信息系统的集成和企业数据的管理。

基础数据标准通常用来对应用系统或数据仓库的数据字典进行标准化,一般包含业务属性、技术属性、管理属性三部分,如图所示:

2.png

业务属性用来描述基础数据的业务信息,以方便业务人员理解,例如标准主题、标准分类、标准编码、标准中文名称、标准英文名称、业务定义、业务规则、引用的相关标准、标准来源和依据等。

技术属性用来描述基础数据的技术信息,支持系统的实现,例如数据类型、数据格式、长度、代码的编码规则、取值范围等。

管理属性用来描述基础数据的管理信息,支持对数据的管理和操作,例如标准定义者、标准管理者、标准使用者,以及标准的版本、应用领域、使用系统等。

基础数据标准的稳定性比较强,一经发布,一般不会轻易变更,它属于企业各系统之间共享的公共代码。

3、主数据与参考数据标准

主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等。它是具有高业务价值、可以在企业内跨业务部门被重复使用的数据,被誉为企业的“黄金数据”。

参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据属性的域值范围。参考数据一般以国际标准、国家标准或行业标准为依据,是固定不变的数据。例如:人员是一个主数据,人员的性别、民族、学历是它的参考数据,如图所示:

3.png

主数据标准包含主数据分类、主数据编码和主数据模型。

主数据分类是根据主数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序。

主数据编码是为事物或概念(编码对象)赋予具有一定规律、易于计算机和人识别处理的符号,形成代码元素集合。对各类主数据概念的正确理解依赖于主数据分类,对各类主数据作出唯一表示依赖于主数据编码。

主数据模型即基于主数据属性的逻辑模型或物理模型,包括每个属性的名称、属性性质、类型、质量规则、取值范围等。

3、指标数据标准

企业的各业务域、各部门均有其相应的业务指标,这些指标有的名称相同却有着不同的业务含义,而有的指标虽然名称差异很大,但在业务上却是同一个指标。

指标数据标准是在实体数据基础之上增加了统计维度、计算方式、分析规则等信息加工后的数据,它是对企业业务指标所涉及指标项的统一定义和管理。指标数据标准与基础数据标准一样,也包含业务属性、技术属性、管理属性三部分,如图所示:

4.jpg

指标业务属性一般包括指标编码、指标中文名称、指标英文名称、指标主题、指标分类、指标类型、指标的业务定义、指标的业务规则、指标的数据来源、取数规则、统计维度、计算公式、显示精度、相关基础数据标准等。

指标技术属性一般包括指标来源系统、指标使用系统、数据源表、数据类型、度量单位、取值范围、指标生成频度、指标计算周期、指标取数精度等。

指标管理属性一般包括归口管理部门、业务负责人、技术负责人、指标权限范围等。

05数据标准管理的4个最佳实践

数据标准管理的目的在于让企业内信息系统的建设和集成遵循这些标准,同时作为数据治理制度的延伸,保证信息系统所需数据标准的完整性、适用性并得以执行。

有效的数据标准管理将企业信息的获取、转换、存储、检索、开发、传递直到用户使用等环节紧密衔接起来,有利于深层次地开发和利用数据资源,并发挥海量数据的整合利用效果。在数据标准的贯彻和落地过程中,应在业务部门、业务系统中循序渐进、迭代式地执行数据标准,并获得管理层的充分支持、系统开发部门的大力配合,这样数据标准才能够切实执行下去。

数据标准管理的最佳实践如下:

1、业务主导

数据标准来源于业务,服务于业务,数据标准化问题归根到底还是管理问题,应从业务入手。建立数据标准,不仅是为了解决不同信息系统之间的数据互通问题,还为了让不同业务部门之间达成共识。数据标准的制定以企业的价值链为主线,按业务域一点点地梳理,这个工作量比较大。单靠工具不能做好标准化,技术和工具是最后用来固化数据标准执行的,而标准梳理工作主要靠各业务条线的人员。

2、循序渐进

从价值链、业务流程角度进行分段实施,不要企图一次实施所有的数据管理标准。企业应根据业务需求,结合系统改造和新系统建设的契机,选择适当的数据标准落地范围和层次,对亟待解决的标准问题进行落地。分段的目的是明确各业务部门的数据职责,使数据与业务流程相匹配。

3、动态管理

对于数据标准管理,最重要的是保持数据定义、标准设计和标准使用的一致性。但数据标准不是一成不变的,比如企业在拓展新业务的时候,需要增加相应的标准,对于没有价值的标准,要及时废弃。

数据是动态变化的,数据标准也要与时俱进,并具有前瞻性。企业需要建立数据标准体系的持续更新机制和具备数据标准动态管理的数据治理平台,实现数据标准版本的管理,便于持续维护改进,方便问题查找。

4、应用为王

数据标准化是企业信息化建设最根本、最基础的基石性工作,数据的标准化工作要着眼于企业信息系统的整体规划及应用方向和需求,必须做到标准、统一、一致。数据标准化工作做得好,会为后续的BI、大数据分析建模打下良好的基础。

任何一个企业建设数据标准都不是为了建标准而建标准,而是为了让数据标准服务于业务,提升业务效率。应结合企业IT系统的现状,以落地应用为目的,以企业现行的各类国标、行标为基础,以对现有系统的影响最小为原则编制和落地标准,这样才能确保标准切实可用,让数据标准最终回归到业务应用中,发挥作用。

写在最后的话

企业数据治理的成效很大程度上取决于数据标准的合理性和统一实施的程度。企业数据标准体系的建设应既满足当前的实际需求,又能着眼未来与国际、国内的数据标准接轨。企业数据标准主要包括数据模型标准(元数据标准)、主数据标准与参考数据标准、数据指标标准等,每类数据标准都可以作为是一个独立主题实施。

数字化的特点是“数据驱动”,而实现“数据驱动”的前提是数据必须是标准的、规范的、消除了大部分数据质量问题的。统一的数据标准,能够让业务人员轻松获取数据,从而让业务人员自助式地进行数据分析、数据探索提供了可能。因此,数据标准是实现“数据驱动管理”、“数据驱动创新”的基础。