“大数据之父”维克托迈尔舍恩伯格说,世界上的一切事物都看作是由数据构成的,一切皆可“量化”,一切皆可数据化。
纵观历史,土地是农业时代的核心生产要素,技术和资本是工业时代的核心生产要素。而当下的数字经济时代,数据为经济发展提供了新的动能,而随着我国公共数据启动授权运营,数据开发利用涌现新模式,数据服务商形成新业态,数据生产存储、流通交易、开发利用的各个环节也发生了新的变化,亟需全面摸底我国数据资源发展情况。
近日,全国数据资源调查工作组发布了《全国数据资源调查报告(2023年)》,对目前国内数据的产、存、算等的发展现状做了具体剖析。
数据资源产量大,存得少
报告显示,2023年数据生产总量达到32.85泽字节(ZB),同比增长22.44%,非结构数据爆发式增长。随着5G、AI技术的快速发展及智能设备的规模应用,内容创作、影像视听等非结构数据不断增长。另外,智慧城市的发展扩大了物联感知范围,设施物联传感数据不断增加,占比超40%。
智能应用的出现和升级也推动了数据产量提速。在生活方面,智能网联车驱动车、路、网、云数据快速交换,出行数据同比增幅达到49%。在生产方面,老旧生产设备的升级改造以及智能边缘设备、工业机器人、数控机床等智能设备的推广应用,推动生产制造数据同比增幅达到20%。
2023年全国累计数据存储总量为1.73泽字节(ZB),存储空间利用率为59%。其中政府和行业重点企业存储空间利用率均为70%左右。数据服务商的存储空间利用率为35.29%。
从存储类型看,数据终端存储高于云存储。数据云存储占比约超过40%,其中,行业重点企业云存储占比为23.49%,数据终端存储占比超七成。
数据产存转化率较低是不能忽视的问题。2023年新增数据存储量为0.95泽字节(ZB),仅占年数据生产总量的2.9%。
一方面,海量数据复用价值较低,企业一年未使用的数据占比为38.93%,大部分过程类数据产生后即被丢弃、覆盖。
另一方面,大模型、训练工具等支撑能力不足,海量数据开发利用价值低于存储成本,部分高价值数据在“大浪淘沙”过程中被遗弃。
大模型当前,算力增长不匹配
算力是大模型的“底座”,大模型的迅速发展使得各行业对算力的需求高涨。至2023年底,全国2200多个算力中心的算力规模约为0.23十万亿亿次浮点运算/秒(ZFLOPS),同比增长约为30%。
但这依旧不能满足市场的算力需求,大模型训练对智算能力的要求尤为突出,2023年智能算力占比约为30%,不能完全支撑行业垂直领域大模型落地,大模型与国产软硬件的适配性问题也需要解决。
另外,区域算力按需布局,东西部算力协同仍待发展。一方面,算力枢纽按需布局趋势明显。东部地区实时计算需求增幅较大,实时数据处理仍依赖于本地算力。京津冀、长三角、珠三角地区算力规模占比达58.61%。
另一方面,东数西算仍需进一步发展。西部地区凭借绿色化和低成本的算力优势逐步承接东部计算需求。如影视制作企业、云服务商等借助西部算力中心大幅缩减成本。然而西部地区存算利用率仍然低于东部地区。
数据如何流动起来
在数据供给方面,报告提到,去年,全国公共数据开放量同比增长超16%,公共数据开放共享初见成效。多个地区的省级数据管理部门开始探索公共数据授权运营机制,通过整体统一授权、分领域分场景授权等多种方式,在优化公共服务和推动创新发展方面取得了一定成效。
本次调查中,有18.6%的平台企业和51%的中央企业在数据开发利用过程中应用到政府开放数据。工商、气象、交通、地理等公共数据广泛应用于数据开发利用中,成为释放数据价值的催化剂。
在数据流通方面,全国数据总流量较去年同期增长7.6%,数据流通方式呈现多元化特征。
随着汽车、家居、穿戴等智能终端品类不断丰富和声像视听数据交互需求持续增加,使消费领域数据交互活跃度不断增加。
平台和央企的数据流通量远超其他企业。中央企业和平台企业成为行业领域的数据枢纽,在各自领域探索交互机制。
其中,平台企业是行业领域的数据枢纽。本次调查中,平台企业平均数据交互量为行业重点企业的249倍,各行业数据正逐渐向平台聚拢。SaaS服务模式日益成熟,平台提供数据产品中SaaS化产品占比超五成,订阅式交易占比逐年增多。
央企成为产业链数据枢纽。本次调查中,中央企业平均数据交互量为行业重点企业的42倍。链主企业正在通过产业链协同赋能上下游企业,汇聚全产业链数据。
需要注意的是,全国各地交易所快速铺开,19个省市建立数据交易机构。但数据交易机构供给水平难以满足旺盛的数据需求。数据需求快速增长,制造业、信息服务、批发零售等行业数据需求量较大。但与此同时,交易机构数据产品成交率不高。27家交易所上架数据产品中仅有17.9%实现交易,数据场内交易活跃度较低。
数据应用的价值空间巨大,但还未得到释放。本次调查中,96%的行业重点企业已实现数据场景化应用,其中超8成行业重点企业已经运用数据辅助运营管理优化,半数企业在生产环节实现数据驱动。
但我们也要看到的是,目前企业数据管理和复用水平较低,多主体数据协同难度大。企业普遍重数据设施和项目建设、轻数据资源管理。
本次调查中,21.9%的大企业尚未建设数据管理系统,大多数中小企业数字化转型产生的数据未实现复用。数据多场景、多主体协同难度大。开展产业链协同应用的企业占比不足20%,通过产业链数据实现风险预测的应用占比约为10%。
另外,企业数字化投入较高,数据价值外溢效应尚不明显。企业对数据价值认识和判断不足,数据增值的投入和能力有限,开展数字化转型的大型行业重点企业中,仅有8.3%实现了数据复用增值,数据价值有待进一步释放。
展望数据要素的产、存、算
报告提到,我国数据规模优势将进一步扩大。数据生产能力将随着卫星通信、自动驾驶、生成式AI等新技术的规模化应用而持续提升,预计2024年数据生产量增长将超25%,同时,数据存储能力也将随硬件技术的升级迭代和成本降低提升。
数字化转型将促进各行业高质量数据形成,数据从设备、系统的分散状态释放、汇聚和应用。同时,AI大模型的迅猛发展对大规模、高质量、多样性数据集提出更高要求,有助于数据质量进一步提升。
随着人工智能训练需求的高涨,算力在短期内仍会出现难以满足需求的情况,但会随应用需求加速调整布局,提高算力利用率。
一方面,数据存储结构将按需调整,边缘智能计算将有所提高,把有价值的数据释放出来;协同交互需求推动部分数据向云端迁移,实现在线调度和应用。
另一方面,随着数据高效计算、实时读取需求不断增长,未来全国一体化算力体系将向算力能力发布、算力调度、安全服务等多元功能扩展,缓解东部实时算力压力的同时,释放西部算力优势。
数据流通将是未来一段时间发展的重点。一方面,随着数据流通基础规则不断完善,数据交易场所、数据服务商等流通载体将逐步走向规范有序发展。另一方面,场内场外流通交易模式更加多元化,各类细分领域交易机构向专业化发展。平台企业和中央企业将持续发挥行业数据枢纽作用,带动行业领域的数据汇聚、流通和应用。
应用场景牵引的数据开发利用将成为主要趋势,AI技术成为数据开发利用的重要推动力。一方面,应用需求涌现,场景逐渐丰富化。大模型对海量高质量数据提出了迫切需求,垂直领域的数据应用需求将持续保持快速增长,并逐步从业务降本提效转向协同创新、市场拓展,数据驱动业务发展将成为主要应用诉求。另一方面,自然语言处理、语音识别等技术进步降低开发门槛,围绕数据增值的产品服务将逐渐成为数据供给的主要方式。
当我们摸清了数据的“家底”之后,更应该好好思考如何有效地利用如此庞大的数据。面对丰富的应用场景,如何让数据发挥最大价值,需要各方形成合力,才能化数据要素为生产力。