一、市场在扩大,但是趋于理智,价值导向更明显
数据中台是中国本土诞生的一个词,从技术的角度来讲,笔者个人认为是对数据架构和数据平台的一个巨大贡献,快速拉近了高不可攀的数据技术与实际应用的距离,让数据在企业落地变得触手可及。数据中台显然是近几年的一个行业热点,几乎所有有能力的客户,都会场合套用数据中台的概念来启动数据域建设或者改造,试图打破信息壁垒和数据烟囱,实现数据资产的整合。在数据要素配置的政策加持下,数据中台市场规模迅速扩大。
最近看了一些数据,数据中台增长率从2019年的120%,降到了2022年的30%,再到预测的2023年的24%,虽然不同机构对这一数字的解读用了不同词儿,有的叫增长趋于平稳,有的叫增速骤降,怎么说都对,但其中的共识就是客户开始变得比以前理智,不再纠结于过分追新求快,开始关注数据中台的价值导向。客户也开始更理智的看待数据要素,从一开始像囤积土地资源一样囤积数据,开始更多关注数据本身能够带来的价值。同时,也开始更加关注基于数据中台的数据治理应该如何开展。
二、数据中台与数据治理本就你中有我,我中有你
数据中台的出现在客观上对传统数据治理的推进造成了一定的影响,但是数据中台从本质上跟数据治理是相辅相成的关系。首先,数据中台实现了数据资源的聚合和融通,承载了业务条线对数据的需求和期望,是企业切入数据域建设的重要途径和抓手。企业通过数据中台的建设和落地,比较容易在数据层面“找问题”、“强弱项”,有助于数据治理意识和体系的形成。数据中台要想持续发挥价值,需要受数据治理体系的管理和约束,数据治理的持续运行有助于进一步加强和推动数据服务能力建设。
虽然在技术架构上,数据治理始终都是数据中台的重要组成部分,但是数据治理的成效始终都没有发挥出来。究其原因,问题应该出在管理和组织上。
三、除了工具和平台,我们应该怎么理解数据治理
1、统一思想
数据治理应该成为企业数字化转型战略的一部分,针对不同情况和处境,尽快达成一致,形成统一的治理思想和战略,并纳入数字化战略统一推进。处在数字化转型初期的,应该采取管理先行制度为王的策略;处在数字化转型中期的,应该尽快建立数据治理平台能力,建立全链路数据跟踪监测体系和数据质量基线,快速发现问题,避免一乱一治的问题。
2、组织至上
数据治理始终都是一个以人为本的领域,数据治理的核心是人,不是系统。这个概念可能很多人不能接受,但事实就是这样。平台和工具只能代替人去处理一些重复性劳动,但是数据意识的养成、数据标准的建立、数据质量体系的完善都需要靠人去推动。所以,成立专门的组织就很重要,建立面向数据治理、数据运维和数据运营的专门团队,确定团队和组织的地位和责权利,就变成了当务之急。有时候组织的范围不仅仅是本单位内部,还会包括你的应用开发商、服务商和供应商。
3、模式适配
通常来讲,数据治理的推进模式有集中式、联邦式和分布式。模式没有好与坏的区别,适合的就是最好的。比如,对于管理能效高,自上而下推动力强的企业,显然集中式是最佳的选择。对于存在多源异构数据的企业,数据资源丰富、需要调动不同业务条线的数据意识和积极性,联邦制可能更适合。
4、建章立制
在以前的数据治理活动中,很多大程度上规章制度是缺位的。数据治理往往以运动的方式出现,“醒时同交欢,醉后各分散”,雷声大雨点小,运动过后无人问津,一切都回归原点。数据治理的建章立制的过程,也是“立法”的过程,需要明确数据的管理职责、管理流程,形成常态化治理机制,实现数据的“长治久安“。
四、数据治理的发展趋势
从目前来看,数据治理的发展趋势,有很多方面已经很明确了,比如数据治理与AI的结合、数据安全与数据治理的深度融合、数据价值呈现成为数据治理的关注焦点。以上思路毋庸多言,我想重点分享一下下面的观点:
1、业务牵引的精细化治理,成为趋势
传统大水漫灌式的数据治理方式,正在被业务场景聚焦的精细化方式取代,开始尝试重点突破关键和核心业务场景,在局部和小范围进行推进,取得成效以后再进行推广。同时,不同行业和领域对数据治理能力的需求迫切程度也不一样,比如金融数据治理重点关注数据标准化,多源异构数据较多和离线实时数据并行的场景更关注数据质量监测,需要按照结合行业属性和业务特点进行有针对性的精细化治理,杜绝头疼医头脚疼医脚。
2、全链路数据跟踪监测体系和数据质量基线需要持续关注
说起数据质量监测,这正成为数据治理取得价值突破的重要抓手。面对大量多源异构数据和不同业务场景下,离线和实施数据并存的情况,全链路数据跟踪监测体系显得尤为重要,需要从数据源、数据模型到数据应用的全链路监控,监控数据调取、数据运行状态和数据质量事件。同时,我们需要及时构建数据质量运维基线,根据任务要求建立合理的基线预警,对数据质量问题早发现早处置。关注持续的任务关联性和影响性分析(有点像业务连续性里面的业务影响性分析),基于全链路的数据血缘,梳理上下数据依赖关系,及时通报及时修复。
3、数据治理和数据平台一体化建设
数据治理体系和数据平台建设,往往没办法依照“发现问题、分析问题、解决问题”的路径去落地,会受很多问题的制约和限制。解决数据问题,通常有两个思路:
一是一是从平台架构、技术方面思考解决方法。这个方向就是数据中台,数据中台中的“一切业务数据化、一切数据业务化”的思想,体现出来的数据资产化、元数据管理等等跟数据治理思想一致。二是通过数据治理解决问题。在这个方向上,数据治理从数据资源目录梳理、数据标准建立开始,逐步推动数据资源服务和数据能力服务两大板块。
因此,数据平台建设与数据治理正在深度融合,按照一体化建设的思路向纵深发展。
4、DataOps数据开发治理一体化
近几年,DataOps数据开发治理一体化在业界非常受欢迎。部分数字化转型较早、数据资源条件优厚的企业,借鉴传统DevOps的理念,将原本分散的数据治理、管理、开发和应用等环节打通,形成一个无缝衔接的大闭环,去破解企业在数据应用中的难题。
究竟什么是DataOps,在现在阶段不太好定义。维基百科对DataOps的定义是一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期,简而言之,就是提供一整套工具和方法论,让数据应用的开发和管理更加高效。显然,这个定义有点笼统又不明确。
我们一般理解,DataOps的目标是为了使数据资源和数据应用的开发变得更加有序和可控,实现组件和能力重用以及过程自动化,实现面向用户的自助式数据分析。DataOps在数据开发运营体系化方面,可以作为数据中台建设必须参考的一个方法论。DataOps强调的是数据应用的开发和运维效率,就像DevOps一样,DataOps希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。
如果说数据中台是数据战略层面的,笔者理解DataOps就是战术层面的。