随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。
未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。
然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。
即便仅在一次训练中混入较多比例的合成数据,也可能导致模型性能急剧下降,难以泛化到真实世界的数据中。
最近在 ICML 2025 会议上,来自上交大等研究机构的研究团队系统性地剖析了这一问题,
并提出了一种创新的数据生成策略,Token-Level Editing,旨在有效避免模型崩溃。
- 论文标题:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?
- 论文链接:https://arxiv.org/pdf/2412.14689
不同于直接使用生成数据,该方法在真实数据上引入细粒度的 “微编辑” 操作,从而构建出结构更稳定、泛化性更强的 “半合成” 数据,有效规避了模型崩溃风险。
非迭代式模型崩溃现象识别
为了揭示合成数据对语言模型训练的影响,研究团队系统分析了不同合成比例下的模型训练行为。
实验显示,即使只进行一次预训练,在数据中混入高比例的合成数据,也会显著导致性能下降。
这种现象被称为非迭代式模型崩溃(Non-iterative Collapse),并在多个语言理解任务上得到了验证。
通过进一步统计分析,研究发现,合成数据相较于人工数据存在两类结构性缺陷:
- 分布覆盖收窄:缺乏低频与长尾样本,难以体现语言的多样性。
- 特征过度集中:n-gram 等语言特征分布密度过高,易导致模型过拟合。
Token-Level Editing
以编辑替代纯生成
更精细、更高质量的数据生成方式