“数据”于AI大模型的重要性 - 行业新闻 | 中国信息协会大数据分会

据OpenAI披露，此前GPT-3.5的文本数据多达45TB，相当于472万套中国四大名著，而GPT-4在之前训练数据集的基础上又增加了多模态数据。

预训练数据的数量、质量、多样性成为大模型能力表现的关键性因素，数据对于人工智能领域的重要性值得我们重新审视。

数据为何是“关键”

AI大模型是指在机器学习和自然语言处理等领域中，使用的庞大的神经网络模型。这些模型通常具有数以亿计的参数，并通过大规模数据集进行训练，最终更好地理解和处理复杂的任务，如图像识别、自然语言理解、语言生成等。

近年来，由于计算能力的提升、大规模数据集的可用性以及算法的改进，AI大模型进入爆发增长期。算力、算法、数据，是大模型发展的关键。在训练的阶段，算力越大，可做出的模型就越大，更新迭代的速度就越快。庞大的数据库，是人工智能得以处理、分析的基础。

算力可以推进大模型的迅速发展，但数据却是推动大模型高质量发展的关键。大模型在今天展现出强大的能力，得益于背后的海量数据、蕴含了丰富的“人类”知识和智能。

数据“质量”的重要性

在2023年世界人工智能大会期间，大模型“幻觉”这一词被高频提起。大模型“幻觉”指模型生成不正确、无意义或不真实的文本的现象。

造成这一现象的主要原因是大模型缺乏数据支撑，因为其核心技术原理是通过Transformer架构下的Next Token Prediction，即“下一个字符的预测”。

因此，提高数据的质量和多样性对于大模型的性能至关重要。丰富的数据集可以帮助模型更好地理解和捕捉不同的概念、语义和语法结构。多样化的数据也可以使模型在各种任务和领域中表现出更好的泛化能力，从而演绎出正确的、有意义的文本。

数据“数量”的重要性

过拟合是指模型在训练数据上表现良好，但在未见过的数据上表现不佳。通常发生在模型的复杂度过高、训练数据有限或不平衡的情况下。

这时，数据数量的重要性就体现出来了。通过使用大量的数据进行训练，可以减少过拟合的风险，使模型更好地适应各种陌生的输入，并在不同的情况下保持稳定的性能。

例如机器学习模型必须分析照片并识别其中包含狗的照片。如果机器学习模型在数据集上进行训练，该数据集主要包含显示室外公园内狗的照片，则该模型可能学习使用草作为分类特征，并且可能无法识别室内的狗。

数据“多样性”的重要性

数据的多样性也是影响模型表现的重要因素之一。大模型的目标是能够适应各种不同的输入，并对未见过的数据进行准确的预测。通过使用大量的训练数据，模型可以学习更广泛的上下文和语言规律，从而提高其泛化能力。

从而提高模型预测的准确性，防止过拟合，适应新数据，节约资源和时间，使机器学习模型更具有实用性和可靠性。数据在质量上的提高，才能够推动整个数据值智能的飞跃，而非是单纯数量的增加。

举个例子，如果是简单的同类型数据反馈，单条数据反馈和十条同类型数据反馈，虽然在数据的数量上增加了10倍，但模型的智能并没有得到拓展和增加。

结语

数据对于大模型的重要性，除以上提到的观点外，还可以用于模型的调试和改进。通过分析数据集中的样本，可以发现数据中的噪声、错误或偏差，并采取相应的措施来纠正这些问题。此外，可以使用数据来评估模型的性能，并根据反馈进行改进和优化。

“以数据为中心”，成为越来越多业内人士的共识，要推动大模型常态化、高质量发展，就要追求数量多、高质量、多样化的数据来源，实现人工智能技术的突破。

在当前算力和算法难以拉开巨大差距的情况下，“数据”成为大模型企业突围的关键赛点。如何在维持数据安全和伦理的情况下，突破数据壁垒、得到更多高质量的数据成为大模型企业重要的课题。