ICML 2025 | 如何在合成文本数据时避免模型崩溃?

随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。

随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。

未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。

然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。

即便仅在一次训练中混入较多比例的合成数据,也可能导致模型性能急剧下降,难以泛化到真实世界的数据中。

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

最近在 ICML 2025 会议上,来自上交大等研究机构的研究团队系统性地剖析了这一问题,

并提出了一种创新的数据生成策略,Token-Level Editing,旨在有效避免模型崩溃。

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

  • 论文标题:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?

  • 论文链接:https://arxiv.org/pdf/2412.14689

不同于直接使用生成数据,该方法在真实数据上引入细粒度的 “微编辑” 操作,从而构建出结构更稳定、泛化性更强的 “半合成” 数据,有效规避了模型崩溃风险。

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

非迭代式模型崩溃现象识别

为了揭示合成数据对语言模型训练的影响,研究团队系统分析了不同合成比例下的模型训练行为。

实验显示,即使只进行一次预训练,在数据中混入高比例的合成数据,也会显著导致性能下降。

这种现象被称为非迭代式模型崩溃(Non-iterative Collapse),并在多个语言理解任务上得到了验证。

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

通过进一步统计分析,研究发现,合成数据相较于人工数据存在两类结构性缺陷:

  • 分布覆盖收窄:缺乏低频与长尾样本,难以体现语言的多样性。

  • 特征过度集中:n-gram 等语言特征分布密度过高,易导致模型过拟合。

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

Token-Level Editing

以编辑替代纯生成

更精细、更高质量的数据生成方式

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

比论文查重更折磨,AI成了这届毕业生的噩梦

2025-5-14 14:15:15

AI新闻资讯

Manus 母公司蝴蝶效应拟融资 1 亿美元,估值达 15 亿美元

2025-5-14 14:30:04

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索