数据作为新型生产要素,已经成为驱动全球数字经济发展的动力引擎,数据要素资源呈现几何式增长,数据驱动型企业正在引领资本市场的发展。
国家正在积极推进数据要素市场的培育和发展,以适应新时代的需求,促进经济发展和统一大市场建设。
国家工业信息安全发展研究中心等编写的《中国数据要素市场发展报告(2021-2022)》显示,2021年我国数据要素市场规模达815亿元,数据要素对2021年我国GDP增长的贡献率和贡献度分别为14.7%和0.83个百分点。
那么如何推动数据要素市场的发展,发挥数据的价值呢?国家数据局局长刘烈宏在2023全球数商大会开幕式上表示,在推进数据要素市场化配置的过程中,特别是在丰富完善数据基础制度、推动数据基础设施建设、促进数据流通和开发利用等方面,数商扮演着重要的角色,发挥着关键的作用,国家数据局非常重视推进数商的发展。
对于数商而言,强化数据驱动的生产要素配置能力,实现要素数据化,促进劳动力、资金、技术等要素在产业间、行业间、区域间的合理配置,提升全要素生产率。
1.政策法规支持数据要素市场建设
中国政府提出了大力发展数据要素市场的战略。在国家“十四五”规划中明确,大力发展数据产业和数字经济被确定为国家重点发展方向之一。
中共中央、国务院印发的《关于构建数据基础制度更好发挥数据要素作用的意见》中明确提出的,在不断探索完善数据基础制度过程中加大统筹推进力度、创新政策支持的重要举措。
财政部会计司发布的《企业数据资源相关会计处理暂行规定(征求意见稿)》明确了数据资源的相关会计规定,是数据资源资产化和数据要素市场建设的重要制度性安排。
目前北京正式启动数据要素基础制度先行区,明确到2030年,打造数据要素市场化配置的政策高地、可信空间和数据工场,汇聚高价值数据资产总量达到100PB,数据交易额达到100亿元,数据产业规模超过1000亿元。
而上海为了加快打造人工智能世界级产业集群,推出了“推动人工智能大模型创新发展若干措施”,其中包括组建大模型语料数据联盟,鼓励多元主体共同推动高水平语料数据要素建设等。
上海的措施中特别强调建立语料数据知识产权保护框架,充分利用区块链等技术,深化以贡献为导向的激励机制和评估认证机制。同时依托上海数据交易所建立语料数据交易板块。
总体来看,中国政府提出大力发展数据要素市场的主要举措包括:
一是在信息基础设施建设方面,加大对信息基础设施的投入和建设力度,包括数据中心建设、云服务平台建设等,提升信息基础设施的规模和能力。
二是在数据安全和隐私保护方面,通过出台《数据安全法》、《个人信息保护法》等,加强对数据的安全和隐私保护,为数据要素市场提供健康发展的法律保障。
三是在数据治理和标准化方面,制定数据治理标准和技术规范,推动数据要素市场的规范化和标准化发展。
四是在数据开放共享方面,鼓励政府部门和企业开放和共享数据资源,促进数据要素市场的供给和交流。
五是数据产业扶持方面,通过税收、融资、人才培养等多种方式支持数据产业的发展,推动数据产业的升级和转型。
另外,针对关键领域,如人工智能、大数据、物联网等,制定相关产业政策和专项扶持政策,促进相关产业的发展。
随着数字经济和大数据时代的到来,中国数据要素市场正在快速发展。企业和机构对数据要素的需求量快速增加,不仅是传统的地理信息和气象数据等,还涉及人口、交通、医疗、教育、环保等领域的各种数据类型,这些数据在现代经济活动中发挥着重要的作用,支持着金融、交通、能源、医疗等行业的发展和应用。
同时中国的数据产业不断发展壮大,各类数据供给商(数商)纷纷加入到数据产业链中,数据质量、数据标准化、数据共享等方面的技术进步,使得数据要素市场供给品质和水平不断提高。
刘烈宏表认为,数商是以数据为生产经营关键要素的企业,是数据产业的重要组成部分,在盘活数据要素价值中发挥着关键作用。目前,市场上既有从事数据产品开发、发布、承销和数据资产合规化、标准化、增值化的服务型数商;也有从事利用数据赋能相关产业,推动产出增加和效率提升的应用型数商;还有为数据采集、传输、管理等提供支撑的技术型数商。
而技术型数商是数据资源的“开发者”,促进数据聚起来。通过帮助各类经营主体更好地采集、清洗、存储、传输和管理数据,让分散在不同系统、平台的数据,汇聚成标准化、可流通的生产要素,拓展数据来源,提升数据质量。星环科技作为上海数据交易所首批签约的技术驱动型数商,为数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期中每个环节提供基础软件及服务,
据上海数交所研究,从2013年至2023年,中国数商企业数量从约11万家增长到超过100万家。
此外,物联网、人工智能等新技术的发展,数据的应用场景日益扩大,从传统的商业领域发展到政府公共服务、环境保护、城市管理等领域。
2.让数据变语料,数据要素发展一个关键环节
对企业而言,数据要素发展的一个环节就是要把数据变成语料。语料就是用于建模、训练机器学习和自然语言处理模型的文本数据集合,这些文本数据包括句子、段落、文章或其他形式的语言表达。
当然语料还可以是文本、图像、音频等形式,可以用于训练和验证各种AI模型和算法。因为语料库的质量对于模型的性能和准确性有重要影响,所以在构建AI模型之前,需要准备好适用的语料数据。
那么怎么将数据转化为有效语料呢?企业需要将原始数据进行整理、清洗和标注,将处理过的数据转换成符合语料联盟要求的格式和规范。将加工整理后的语料按照语料联盟的要求提交和共享,与其他成员一起共建语料库。
需要注意的是,将数据变成有效语料并加入语料联盟是一个持续的过程,需要不断更新和维护。同时,还需要遵守语料联盟的相关规定和要求,确保数据的共享和使用符合规范和标准。
11月26日,在2023全球数商大会上,星环科技作为中立的技术提供方加入中国大模型语料数据联盟。
中国大模型语料数据联盟旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
在生态建设方面,今年上海成立了中国大模型语料数据联盟,旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面,机构联合打造国际化开放性的大模型语料数据生态。
星环科技加入中国大模型语料联盟,为数据要素释放价值提供数据处理工具,一方面通过数据处理工具链帮助数据提供方从原始数据到“供得出”数据,另一方面通过数据要素流通产品帮助数据供需双方在技术方面实现在数据安全可信的“流得动”。针对人工智能等高速发展态势,也将新形态下多模语料、AI模型前、中、后数据也纳入到了“数据”范畴,以数据为中心,关注大模型的前中后期的数据管理。
3.从语料变数据资产,实现数据应用和商业化
正如前文所言,一旦语料生成,企业可以对其进行评估,并确定其对业务的潜在价值。这个过程涉及对语料进行质量评估、量化价值、进行专利申请等。
需要注意的是,语料数据作为数据资产,并非单纯地以原始形式存在,而是经过了清洗、预处理、标注、分析等一系列操作,才能发挥其实际价值。
同时,合规性和隐私保护也是进行数据资产化过程中需要注意的重要问题,需要遵守相关的法律法规和隐私保护准则。
而语料变成数字资产后,就可以实现数据应用和商业化,将经过分析和挖掘的数据应用于实际场景和业务中,也可以通过数据产品、数据服务等方式,进行交易,实现商业化价值。
而财政部推出的《企业数据资源相关会计处理暂行规定(征求意见稿)》,俗称的“数据入表”旨在促使企业和机构主动将其数据开放、共享,并上传到政府指定的数据平台或数据库中,以便更好地支持城市治理和公共服务的改进。
数据入表最直观的影响体现在企业财务报表层面,数据资源在满足条件的情况下由原来利润表中的“费用”变成了“资产”,进入了资产负债表。一方面,该规定解决了企业数据资源产生有效回报前资金投入的会计处理问题。
另一方面,数据资源从费用化到资本化的转变,将使数据的采集、存储、加工、交易和数据安全等全流程受益。这意味着企业在数据方面投入的积极性会增强,数据资源的质量及效用可能会大大提高。
针对数据资产成本归集难、摊销年限确认难、数据资产市场价值测算难等数据资产入表和估值难点问题,上海数交所联合战略数商团队,发布《数据资产入表及估值实践与操作指南》,针对企业入表十大操作难点、三种收益测算、八项创新应用给出操作指引,以“久久为功”的姿态提升《暂行规定》的执行效果,服务国家数字经济战略落地。
星环科技提供了大数据开发工具TDS,提供了覆盖数据全生命周期的数据管理工具集,包括数据集成、治理、资产管理、标签与服务、共享与流通等工具。星环科技将这些工具设计成分布式架构,创新地开发了实时数据同步技术、AI驱动的数据资产管理技术和日均百万级数据工作流调度技术,确保为数据要素提供质量保障机制。
4.数据资产加入数据资产库,形成数据要素
语料被评估为有价值的数据资产后,企业可以将其加入到自己的数据资产库或者行业资产库等中,形成数据要素。
数据要素可以由企业内部使用,也可以授权他人使用,并在市场上流通。
数据资产加入库中时,要将数据资产归类为不同的数据类型,可以方便用于不同类型的自然语言处理任务。
同时需要记录和维护数据来源,包括数据的采集途径和来源机构等信息,有助于数据资产的追溯和管理,同时也方便了后续的文献引用和数据合规性检查。
另外数据资产加入库中后,需要对其进行质量评估,包括数据的准确性、完整性、一致性等,以确保数据的可靠性和有效性,也有助于改善和优化数据资产的质量,提高数据的利用价值。
这样形成的数据要素可以全面地记录和管理数据资产,方便后续的数据处理、分析、建模和应用。同时,也能够更好地保护和维护数据资产的可用性和价值。
刘烈宏表示,国家数据局将推出“数据要素×”行动,让数据供得出、流得动、用得好,促进我国数据基础资源优势转化为经济发展新优势,推动数据在不同场景中发挥出千姿百态的乘数效应。
从数据再到数据要素的这个过程中,每一个环节都需要有中立的技术第三方来帮数据实现价值。星环科技提供了数据要素流通平台Navier和Defensor,提供数据要素流通、数据隐私计算、数据沙箱、数据安全分级分类等能力,辅助用户建立安全监管机制、运营保障机制、标准规范体系,探索试点办法、管理办法、流程等。
中国数据要素市场正在快速发展,未来将成为数字化转型和产业升级的重要引擎。同时企业也需要强化数据治理,将数据变成语料,形成数据资产;加强数据安全保护和隐私保护工作,避免数据滥用和泄露;积极参与数据共享与交易,促进数据的流通,发挥数据价值。