孙凝晖:数据件——数据基础设施的基本抽象之一

时间:2024-06-11

近日,中国工程院院士、中科院计算所学术委员会主任孙凝晖在“第二届CCF中国数字经济50人论坛高端峰会”上作题为《数据件——数据基础设施的基本抽象之一》的主题报告。

640 (1).png

我们认为数据要素市场需要一些新的基本抽象。首先对数据基础设施进行解读。国家数据局成立以后,首次提出“数据基础设施”的概念,现在的互联网构建在一个网络信息空间之上,这个信息空间有一个信息基础设施,数据要素市场会出现一个新的数据空间,数据空间需要一个新的数据基础设施。

图1是国家数据局局长在他的报告里提出的数据基础设施体系,包括网络、安全、流通和算力四个设施,其中网络和安全是过去互联网已经有的,数据流通设施和算力设施是需要新增加的。这四个设施一起支撑数据要素“供得出、流得动、用得好”。某种程度上,基础设施的普及是一个时代的标志,从农业、工业、信息到现在的数字时代,基础设施从交通、能源、互联网发展到算力和数据的基础设施。

640 (1).png

图1数据基础设施体系

一项技术能够成为基础设施,例如数据、算力或者互联网设施,至少有四个基本要求:一是要有标准化,不标准不能成规模;二是该有抽象,抽象是一个人造出来的东西,不是物理世界基本存在的东西;三是必须低成本;最后必须面向一些大的应用场景,而非小的、碎片化的场景。

抽象的例子有很多,货物运输从农业时代、工业时代到全球化时代一直都有,之所以到全球化时代它能支撑全球化的发展,在于它有一个抽象——集装箱,看似非常简单的抽象,但进行了标准化,从运输到计量整个流程都进行了标准化。能源也是一样,电力就是对能源运输标准化的抽象,有了电力这个抽象之后,能量的全过程,从逆变器、特高压传输、锂电池到最后的插座和电表都可以标准化,一个新的能源形式,无论是核电、光伏、风电都可以很快融入到基础设施里。

过去互联网时代也有两个非常基本的抽象,一个是IP包,这是一个人为的抽象,它的包头是由人定义的。有了IP包之后,数据在路由、光纤上的传输都可以基于它。现在所有的BAT应用都是构建在一个网页上,构建在WWW万维网的协议上,它的基本抽象就是网页,计算机中HTML、HTTP、浏览器、URL等功能都是建立在网页的构建、组装、寻址和处理上的,所以有了基本抽象才有这些应用。

在处理领域,现在正在构建一个算力网,在上一个互联网时代,算力的集中式服务已经有超算中心和云计算中心,现在需要连云成网,为数据的深加工提供新的基础设施,处理也需要一个基本的抽象,我们提出“网程”的基本抽象。如果想构建一个数据要素全球流动、全球可以加工的基础设施,必不可少的基本抽象是什么?

我们回顾一下数据基本抽象的演化。在这过程中解耦非常关键,解耦的程度越深,数据应用面越广,解耦是形成基础设施的基本方法。最早有数据库的形态,有数据表的基本抽象,其实就是把数据本身和每个应用系统解耦。后来把整个数据系统和企业内部的业务系统进行解耦,形成Key-Value的体系,有数据湖产品,很多业务系统都可以共享同一套数据系统的形态。现在数据要素市场需要把生产者和消费主体进行解耦,数据要进行交易和流通需要在社会范围内对数据进行处理,需要新的抽象,我们构建了一个新词——数据件(DataWare),有SoftWare、HardWare,那么就有DataWare,即数据件的基本抽象。目前其形式仍是未知的,有的成为“数联网”,有的成为“数据场”,其系统形态还在发展过程中,但是一定需要这样一个新的抽象。

具体来说有三次解耦过程。第一次解耦会屏蔽数据访问的复杂性,降低应用系统开发门槛。第二次抽象会屏蔽数据分析汇聚的复杂性,降低企业级系统的开发门槛。现在正在发生的是第三次解耦,早在1988年罗伯特·凯恩已经提出“数字对象”的概念,他是“互联网之父”,他从信息互联和数据互联的角度进行抽象。中国电子的陆总提出数据元件和数据要素金库,是从数据流通的角度提出抽象。我们提出的数据件是从数据处理的角度,特别是在人工智能大数据时代下对数据进行适度加工的角度提出的抽象,目的是为了屏蔽数据使用和流转的复杂度,降低整个数据要素社会化供给的门槛。

在计算里云计算有一个非常基本的抽象,对计算的基本抽象就是容器。我们在没有云计算之前,有一个进程,无论是分布式计算还是并行计算,是做超算还是服务器,所有的应用都是建立在进程上,所有的概念都是在进程这个基本抽象上进行扩展,但是容器可以把云计算的技术体系建立起来,它是对程序和程序所需要软硬件资源的封装,从而使算法可以在不同的平台上一键运行。就像集装箱一样,一个集装箱可以放到车上,可以放到船上,也可以放到火车上进行运输,并不依赖于运载工具。数据件就希望对异质多元的数据标准化封装,支撑数据要素和数据主体、数据应用的解耦,最终实现全网加工要素化的数据。不是平常数据已经存在,而是数据一定要被要素化。它在基本的封装里要具备可管控、可计量、可组装三个基本能力,我们将其分为数据层、元数据层、能力层、管理层和安全层五层。数据的安全机制应该封装在数据件里,就像过去面向对象的设计中,继承是封装在里面的。

组织有两种不同的方式。商品有货架模式和直播模式,一个从供给侧进行组织,一个从消费侧进行组织。货架就是供给侧,从小商店到百货公司,无论是英国的百货公司,还是美国的购物中心,都是分门别类、集中管理,是从供给的角度进行的。我们国家发展的直播带货没有货架,不需要集中管理,从消费者的角度来说,李佳琦和罗永浩不一样,一个是为了女性消费者,一个是为了男性消费者,组织货物的方式都是不同的。所以,现在直播带货可能比淘宝百货公司销售更多,它是按需指导、厂家直销。我认为数据也可以这样,过去都是谁拥有数据组织好后拿来用,文件、数据库都是这样,未来就是一个大模型,数据分散在全球、全社会,需要一个大模型训练的“李佳琦”为我们整合数据,找到需要的数据。数据件组织就是按照数据场的方式进行组织,这就相当于数据的直播带货,需求通过一个协议和软件把需要的数据组织成一个数据场,供给需求方,形成数据价值倍增的效应。

如果按照这条加工线,应该形成这样的价值链,数据件的加工更重视标准化、安全化、要素化,数据的流动技术就是一个数据场的生成工具,应该重视可关联、可组合、可流转。AI/BD计算相当于是数据件的消费或者访问工具,它重视产品化、服务化和价值化。经济的问题背后应该有工具和技术做支撑才能动起来。

最后是要有低门槛开发的方法,现在主要有三大要素,数据场、算力网和模型。过去写网页,任何人到阿里云上租个设备都可以写个网页、搞创业,但现在不行,需要有类似于算力网页这样的组装、开发、表达复杂应用的工具和方式进行支撑。

我们认为要做好数据件至少有六个方面内容需要考虑,它们分别对应生态、构造、获取、使用、度量和保障,这六块内容构成数据基础设施的组成部分。

第一,对生态一定要解耦,件是指数据件,站是数据消费,一定要有供给侧、运营侧、消费侧的解耦才可以。应该有四个角色,不同的角色关心的侧重点不一样,比如供给侧应该关心标准化、统一表征,消费侧应该关注便捷的使用和增值的模式。

第二,构造能力要标化。过去我们有数据集的抽象非常简单,就是文件数据库,应用链路长,而很多应用级抽象从数据服务的角度抽象又太深,不能支持多样性的应用,所以要有弹性组装、即插即用、能力标化的构造接口,我们现在做了一些工作,形成了数据件的构造工具。通过数据的构造工具流水线,通过不同的IDE、不同的配比,比如司法领域的训练,为某一个刑事案件的训练提供数据,或者在不同行业大模型训练里,提供预训练、指令微调或者项目知识库,需要的数据都不一样,这个组装流程需要工具。

第三,数据获取要有广谱关联能力。过去互联网空间的价值涌现是一个核裂变的过程,梅特卡夫定理指出价值和用户数平方成正比。而在数据空间是一个核聚变的过程,我们猜想数据价值和数据要素广谱关联的平方成正比。那怎么把该关联的关联上?需要有广谱关联的能力。过去我们是在信息空间冲浪,未来应用都是在数据空间进行冲浪,是按需冲浪的过程。关联要有关联的基本操作,这和作用力一样,有近程作用力、远程作用力,数据库就是一种近程作用力,大模型好的原因在于它在数据远程关联上能力更强,要把这些基本的算子构造出来。

第四,要有协同编排的能力,类似于网络有HTML,数据件要有互联的协议。表格1中列举了传统数据获取方式和数据件获取方式的不同点,最右边是关于数据件的。

640 (1).png

表格1传统数据获取方式和数据件获取方式的不同点

第五,度量数据件的质量。核心就是要通过采样的方式对数据质量进行预估。

第六,要有内生安全的保障。无论是在生产阶段、流通阶段还是使用阶段,它的保障需求都是不一样的。如图2是数据件全生命周期内生安全的保障机制,包括确权、权限控制、内容保护等等。

640 (1).png

图2数据件全生命周期内生安全的保障机制