大模型数据集现状与启示

时间:2023-12-26
来源:天翼智库
作者: 杜晓明、赵晔蕾

截至2023年7月底,国内10亿参数以上的各类大模型,已达113个,当前模型的扩展速度比数据集快3倍。谷歌研究发现,数据集大小至少与模型大小一样重要,数据集和模型大小应该大约1:1以达到给定数量的训练计算下的最佳性能。因此下阶段AI的突破将得益于高质量数据,这是大模型性能提升、行业应用落地的关键,能否掌控相应的数据集,直接决定能否构建产业竞争优势。

我国数据集的现状

通过梳理国内机构在训练大模型时所使用的数据来源,可以看到目前用于大模型训练的国内数据集主要有公开数据、自有数据、合作伙伴数据、外部采购数据等,当前100%的机构使用公开和自有数据,67%的机构使用合作伙伴数据,22%的机构外部采购数据1,即从第三方机构或平台购买或租赁而获得。

1.公开数据:质量较低、专业度不足,竞争壁垒小

公开数据包括开源数据集和公开资料。目前有国内的政府、行业巨头、开源组织、学术界单独或联合发布开源数据集,如百度DuReader数据集、阿里天池数据集等。总体来看数据质量相对较低,存在噪声、偏差或过时等问题。公开资料主要是电子、纸质等媒介上的各类公开信息,数量较多,形态多样,需要自行抓取并进行预训练才可使用,且行业专业度不深,如各类政府公开数据、新闻、网页数据、百科类数据(百度百科等)、问答数据(知乎等)、共享文档、自媒体等。

2.自有数据:专业度较高,有较高竞争壁垒

自有数据主要是指各个机构在业务经营、研究过程中,自行积累的数据。这类数据领域性和专业针对性较强,适合与行业大模型深度结合,并且因为私有性和垄断性,具备差异化优势。如腾讯“混元”大模型的自有数据主要来自微信公众号、广告数据和微信搜索等,华为盘古大模型的行业数据涵盖了B端的气象、矿山、铁路等,阿里通义大模型的部分自有数据来自阿里达摩院,包括一些专业知识和技术文档等。这类数据存在质量不佳、数量不足等情况且机构一般不具备专业的数据处理能力,需要数据服务提供商协助企业构建自有高质量专业数据集。只有拥有大量数据积累并且具备行业know-how的企业才能够在大模型的基础上学习行业特色数据与知识打造出行业大模型。

3.合作伙伴数据:可能存在合规性问题

机构与其他机构或企业进行合作或交换而获得的数据,合作伙伴以私有接口等方式或授权平台方使用其数据,这类数据通常是针对相关领域或任务的数据,可靠性与实用性较高,但存在定向授权,涉及隐私、安全或法律等合规性问题,如ChatGPT的中文数据据传来自知乎数据,华为盘古大模型使用华为云平台上脱敏后的企业数据等。

4.外部采购数据:数据质量较高、竞争壁垒低

截至2022年末,全国已有56家正规数字交易所,通过API接口对外提供数据,部分机构也在自有平台上对外销售研究报告、聚合型数据表格等数据资源。这类数据可根据需求定制化采购,专业性或需求针对性较高,数据结构性较强质量较高,如上海数据交易所截至2023年7月底,已有1258条数据要素资产在线销售,贵数所已上架产品1055个,交易888笔。万得通过聚合并梳理宏观、上市企业等公开经济、金融类数据,整理形成数据字段,并以数据产品形式对外销售,天眼查等工商信息网站聚合工商、司法等信息,形成关键字段,对外销售。

数据集存在问题分析

1.中文互联网生态封闭,有效公开数据量不足

相较于英文生态的数据总量而言,中文生态中的可用数据总量仍有差距。一方面是由全球互联网语言现状所导致,如维基百科数据截至2023年6月末,英文词条超过600万,而中文为113万;在杂志期刊方面,中国高引用论文的数量占世界份额为27.3%,落后于美国的42.9%2,若叠加其他类型英文文章,则落后幅度更大。另一方面,中文互联网生态逐步迈向以移动互联网为代表的私域化模式,限制了数据可采集性。根据IDC的研究,2022年中国数据总量为23.88ZB,与北美的28.05ZB相差无几,但是在产业实际运营中,可供形成数据集的资源量却不充足。以可供公开采集的互联网站为例,截至2023年6月底,全球前100万互联网站中,英文为53.9%,而中文仅为1.4%3。尽管百度、阿里等部分厂商开放了数据,或者由民间基于数据抓取在Github上开放,但规模一般在10GB以下。数据集规模直接影响中文大模型的竞争潜力。

2.中文数据管理分散,高质量数据集缺乏

一是高质量数据集需要从顶层设计、标注规范、标注质量把控以及发布后更新升级各个方面严格把关,是需要长期积累且持续性巨大资金投入的过程。一般是长期投入的企业或者自然基金项目才有能力开展,如Common Crawl 2008年起抓取网页制定数据集,被公认全球大模型优质基础数据集,目前规模已达TB级别。二是对于训练行业大模型所需要使用的工业、医疗、金融、交通等领域的数据,公共数据来源显著不足,除了彭博、万得、恒生、天眼查、千里马等聚合数据平台之外,在政务、交通等领域需要逐一对接各地的公共数据开放平台或大数据交易平台。不仅如此,这些行业数据需要进一步预处理,例如对阿里天池等行业数据开放平台的监测,众多开放的行业数据实际聚焦于某些单一场景,需要使用者经过聚合整理后方能作为训练大数据的数据集。

3.因私域化或版权化保护,限制中文多模态数据集发展

目前网页抓取、自有数据和开源数据集仍然是多模态大模型数据集的重要来源,其中通过机器翻译开源数据集的方式仍存在风险,如2023年3月,百度文心的AI绘图功能上线,由于具有西方风格,行业内最初质疑是“换皮”方式实现,经过研究主要是百度缺乏国内高质量图片数据集进行模型训练,而使用国外的数据集并采用机器翻译方式将英文标注直接翻译为中文导致。我们分析主要是因为多模态数据私域化或版权化保护导致国内多模态数据集不足。当前各类交通监控、工业视觉等均保存于行业平台,国内2/3高质量图片版权归属于视觉中国,长短视频主要由抖音等平台方运营,这些高质量多模态数据尚未形成多模态数据集或不对外开放。

对运营商的启示

运营商作为信息通信产业的基础设施服务提供商,在人工智能大模型时代,需积极拓展业务边界,将通信信息服务向战略新兴业务方向拓展。布局大模型的同时在数据能力方面夯实AI发展基础能力,赋能企业自身和行业客户数字化转型。

1.加快技术核心能力培养,打造和输出高质量数据集的能力

运营商支撑着几十亿用户24小时数字生活以及近百亿的各类连接数据,数据资产规模巨大。由此一方面可以通过有效的数据规划,实现资源的内部整合,汇聚多源数据打造成可复用的数据资产,将“数据资源”转变为“数据资产”,进而将高质量数据集用于自身网络大模型的训练,借助大模型工具优化网络能力提升基础业务;另一方面要加强数据脱敏、隐私计算等核心技术能力培养,融合数据、工具、算法、算力、服务等多种要素,抽取共性需求,实现数据的价值萃取,打造以高质量数据集为基础的数据价值经营体系,实现基于数据集跨行业跨领域的交换、交易及安全管理,通过与相关垂直行业企业合作输出高质量行业数据集用于训练各行业大模型,进一步增强了行业大模型的领域专业性和场景适配性,更有利的赋能企业数字化转型。

2.加强产业合作,打造数据开源生态环境

一是与合作伙伴共享数据扩大数据规模,增加数据的维度和深度,以支持更复杂、更精细的模型训练,并持续推动优质数据集的构建。二是联合高校、互联网巨头、非盈利机构等组织加强产学研联合创新,打造开源数据集。作为国资央企,运营商需发挥产业链号召力链接产业链上下游,激活数据交易流通市场,促进数据集之间的合作共享,提供更多样化的数据产品,如基于运营商特有的通信类数据打造通信类高质量数据集,并实现数据集的采集、管理和运营的全栈式服务。三是加强与政府的沟通,推动国家、地方数据集标准化建设,涵盖对格式、合规性等要求,推动示范性数据集的建设,如目前北京市已经推出了标杆数据集,运营商具备较高数据合规性能力,可以承担数据交易领域的标杆示范作用。

注释:

1.天风证券

2.《2022年中国科技论文统计报告》

3.W3Techs