训练中加入一条真实数据就可能阻止AI“胡言乱语”
创始人
2026-05-16 16:28:04
0

科技日报北京5月15日电 (记者张佳欣)当AI不断用自己生成的数据“喂养”自己,它就可能逐渐失去准确性,最终输出越来越多错误信息,甚至“胡言乱语”。英国伦敦国王学院领导的研究团队发现,只需在训练过程中加入哪怕一条来自真实世界的数据,就可能有效阻止这种被称为“模型崩塌”的现象。相关成果发表于新一期《物理评论快报》。

“模型崩塌”这一概念于2024年提出,指的是AI模型如果长期依赖自身生成的数据进行训练,模型性能会不断退化,最终输出失真内容。随着高质量人类文本数据逐渐接近枯竭,越来越多AI系统开始使用合成数据训练,这让模型崩塌风险进一步上升。

此次,团队通过分析一类被称为“指数族”的统计模型发现,在封闭循环训练(模型完全依赖自身生成数据学习)中,模型崩塌几乎不可避免。

研究显示,解决方法异常简单:只需在训练过程中加入一条来自外部世界的真实数据,哪怕其数量远远少于AI生成数据,也足以阻止模型性能持续退化,这种作用即使在机器生成数据数量无限增加时依然有效。

过去关于模型崩塌的研究多集中在大语言模型等复杂系统,由于其内部机制难以解释,错误来源也难以追踪,这也成为AI产生“幻觉”的原因之一。通过研究更简单的统计模型,科学家能够从数学上解释为何少量真实数据就能打破模型崩塌,从而为未来更复杂AI系统提供设计原则。

类似现象也存在于另一类名为“受限玻尔兹曼机”的机器学习模型中,表明这一规律可能具有更广泛适用性。下一步,他们计划将这一理论扩展到神经网络等更复杂的系统,以验证其在大语言模型中的实际效果。

相关内容

热门资讯

AI遇见岭南风,一文读懂文博会... 5月21—25日,作为“中国文化产业第一展”,第二十二届中国(深圳)国际文化产业博览交易会(以下简称...
AI重构轨道交通运维边界 成都... 封面新闻记者赖芳杰以AI为代表的新技术,正在重新定义轨道交通安全、效率与成本的边界。5月15日,第十...
深读丨大湾区青商共聚佛山,热议... 5月15日,“湾区智变·青创未来”2026湾区青年企业家日活动在佛山举行。来自佛山、中山、江门及大湾...
训练中加入一条真实数据就可能阻... 科技日报北京5月15日电(记者张佳欣)当AI不断用自己生成的数据“喂养”自己,它就可能逐渐失去准确性...
粤港湾控股更名为“粤港湾智算”... 记者获悉,港股主板上市公司“粤港湾控股有限公司”正式完成法定名称变更,公司全称变更为“粤港湾智算科技...
原创 百... 在5月13日至14日举行的Create2026百度AI开发者大会上,智能体的含量高得惊人。百度在大会...
北京发布国内首个开源AI智能体... 观点网讯:5月15日,北京正式发布国内首个开源开放的AI智能体共性基础设施“灵玑OS”。该项目由北京...
我们还是低估了AI冲击丨小白商... 经观评论陈白/文受益于这一轮人工智能(AI)革命,韩国公司三星、SK海力士等纷纷公布了近年来的最好业...
你的工厂,就差这位“AI专家” 5月15日,佛山市新质生产力大会暨粤港澳大湾区(佛山)具身智能机器人数据训练中心揭牌仪式举行,现场发...
上海开展“清朗·整治AI应用乱... 据“网信上海”公众号消息,上海网信办组织开展为期4个月的“清朗·整治AI应用乱象”专项行动。本次专项...