AI训练数据荒下，合成数据成为“开源”新解法？

显示全部楼层 · 2024-5-29 23:57:13|发表时间：2024-5-29 23:57:13

21世纪经济报道记者冯恋阁福州报道
生成式人工智能技术不断发展，训练数据来源成为人们最关注的问题之一。
去年11月，国家数据局等17部门联合印发的《“数据要素×”三年行动计划（2024—2026年）》提到，要提升数据供给水平、建设高质量语料库和基础科学数据库。
近日，第七届数字中国建设峰会首发研究成果新闻发布会在福州举行。会议现场发布了多份由数字中国研究院（福建）、同济大学、阿里、高德等单位联合编制的多本数据要素行业白皮书。其中，《大模型训练数据白皮书》（以下简称“《白皮书》”）分析了当前大模型研发面临的标准制定、质量评估、总量不足等问题，并尝试提出建议。
“我们期望通过推动数据要素市场建设解决大模型研发面临的数据瓶颈，继而发挥大模型对于数据的处理和分析能力，创造更大的生产力。”数字中国研究院（福建）副院长邬群勇在发布会现场指出。
高质量数据难题待解在生成式人工智能时代，大模型表现与训练数据质量息息相关。高质量数据模型训练和应用过程中有着不可替代的重要性。
高质量数据并非用之不竭的资源。一项来自EpochAlResearch团队的研究就表明，高质量的语言数据存量将在2026年耗尽。
要解困，首先需要明白什么是高质量数据。
由于技术更迭节奏、产业发展速度都很快，人们对大模型表现和功能的预期也在不断变化。《白皮书》指出，当前数据质量高低的判定标准主要取决于模型的应用目的，数据类型会根据模型的发展阶段“因时而动”、根据技术人员的理解判断“因人而异”、根据模型的训练效果“因效而定”。
因此，对质量的比较只能在同类型语料中展开。《白皮书》指出，这类比较往往需要从质量、规模、多样性三个维度出发。
质量方面，被视为“高质量”通常是因为其信息已经通过了有用性或质量筛选。比如新闻、论文数据等会经由专业标准筛选，社交媒体上的内容则可能由用户互动积极性筛选。如果不确定来源，则可以通过少量样本人工评价判断其可读性、帮助性、安全性等指标的质量。
数据规模算是比较老生常谈的问题。在Scaling laws（规模法则，也称标度律）还相当有说服力的当下，当模型的参数或计算量按比例扩大时，模型性能也与之成比例提升。“不单纯是语料规模越大越好，而是高信息密度的语料规模越大越好。”《白皮书》中进一步提示。
同类型语料中的多样性也是值得关注的问题。《白皮书》认为，保证多样性将有效减小模型可能表现出的偏见或系统性不平等。
判断标准确定，“数据从哪来”是下一步要面对的问题。
“首先是数据开放程度有待进一步加强。虽然数据开放共享的理念得到推广，但实际可用的开放数据与市场需求仍然存在较大缺口。”邬群勇在接受21世纪经济报道记者采访时指出，虽然一些公共平台开放了数据获取的API，但其数据服务伴随严格的限制，比如限制访问量，附加收费等。
此外，受限于价值评估、质量判断等配套规则、标准并未完善，数据价值被确认，进而走向流通利用之路也面临一定挑战。
针对高质量数据供给难题，现行方案侧重于进一步构建行之有效的数据开放机制，鼓励行业数据、公共数据等充分流转应用。
合成数据或成新路径事实上，建立数据开放机制，在训练过程中引入合成数据或许也是一条“开源”的路径。
合成数据是通过算法和数学模型创建的数据。通过建模真实数据的分布，然后在该分布上进行采样，创建出新数据集，能够让合成数据模拟出真实数据中的统计模式和关系。在大模型训练中，合成数据能够发挥补充或替代真实数据的作用。
据媒体报道，OpenAI、Anthropic、DeepMind等公司都曾表态将探索在训练中引入合成数据的可能性。《白皮书》也提到，OpenAI的Sora就用到了大量由游戏引擎合成的视频数据作为训练集。
《白皮书》认为，合成数据解决了部分类型的真实世界数据难以观测的问题，拓展了训练数据的多样性。比如，一些“边缘情况”（如极端天气、罕见病）或者真实世界中的“潜在隐患”（如金融诈骗等安全风险）数据的生成可以弥补因样本分布不均衡导致的客观限制。
邬群勇认为，合成数据可以提高模型训练的效率。一方面，合成数据可以根据特定的需求进行设计，比真实数据集更广泛，可确保满足特定的数据质量标准。另一方面，这类数据可以快速生成，几乎不需要人类标注，且不需要进行繁琐的数据清洗和预处理工作，可提高数据获取效率。
合成数据生成过程可能存在偏差或噪声，有观点认为数据的质量和真实性无法完全模拟客观世界。但在邬群勇看来，部分噪声数据对模型训练来说是必需的，有助于提高模型的鲁棒性。
对于饱受质疑的隐私安全顾虑，《白皮书》提到，合成数据可以替代个人特征数据，有助于用户隐私保护，解决数据获取合规性的问题。当前，类似 “猜你喜欢”功能的实现往往需要大量用户数据的参与。大模型理解力逐渐提高的当下，一方面，可以用合成数据替代用户数据训练模型；另一方面，用户的需求也可以通过与模型的自然语言交流被系统理解。“整个过程在提升推荐匹配度的同时，还可以降低推荐模型对个人特征数据的依赖。”《白皮书》指出。
在可及的未来，合成数据将有望在几大场景发挥作用。
首先，合成数据可应用于多模态数据的生成。利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AIforScience等场景的训练。
其次是高价值领域知识的生成。合成数据能通过对现有数据的深加工，将之前不能被用于训练的数据转化为可用。例如工业制造领域，利用合成数据，可以把生产、制造等工艺流程相关的原始数据，结合行业知识图谱，转化为可供大模型学习的工业语料，以缓解行业语料短缺的问题。
据咨询公司Gartner预测，到2030年，合成数据将彻底取代真实数据，成为AI模型所使用的数据的主要来源。美国AI研究机构Cognilytica数据显示，2021年合成数据市场规模大概在1.1亿美元，到2027年将达到11.5亿美元。