《自然》封面：以AI生成数据训练AI，模型变傻？

发布时间: 2024-07-29 08:48:30 来源：中国科学报

观看：284

大模型有许多“崩”的时候，但有一种崩溃叫做“自毁前程”——

近日，《自然》发表在封面的一篇论文指出，用AI生成的数据集训练未来几代机器学习模型，可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示，原始内容会在数代内变成不相关的“胡言乱语”，彰显出使用可靠数据训练AI模型的重要性。

该论文被放在《自然》封面介绍，配图为“Garbage Out”（垃圾出）。图源：Nature

?

研究团队给出一个例子。他们测试了Meta的OPT-125m模型，询问了关于中世纪建筑的相关信息，并且每一次微调都是由上一次生成的数据来训练。结果，前面几轮的回答还算过关，但随着生成内容的迭代，模型逐渐语无伦次；到第九次，模型居然开始“胡说八道”，回答从讨论建筑跳跃到一串“野兔”的名字……

该论文主要作者表示，他们曾考虑过合成数据可能对大模型造成误差，但未曾预料到模型的恶化速度会如此迅速。

对此，研究团队专门定义了“模型崩溃”：模型崩溃是一个退化过程，模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后，新一代模型就容易误解现实。同时，研究团队还分析了导致大模型同原始模型发生偏离的三个误差原因。

经过理论分析，研究人员指出，对于使用前几代生成的训练数据集的AI模型来说，模型崩溃似乎是一个不可避免的结局。作者团队认为，用AI生成数据训练一个模型并非不可能，但必须对数据进行严格过滤。与此同时，依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。

这一研究给AI训练敲响了警钟。当下，大语言模型等生成式AI工具越来越受欢迎，这些模型工具主要使用人类生成的数据进行训练。然而，随着这些AI模型工具被大量使用，它们生成的内容会逐渐充斥于互联网，未来计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

不过，也有业内人士认为，这项研究的逻辑有些问题，毕竟“训练一个失败的模型要比训练成功一个模型要容易得多”。该观点指出，训练AI模型过程中除了对数据的选择之外，还有强化学习、模型精调等必要方法；即便是使用AI合成数据，基本上也都有各种生成方式的设计和严格的筛选。

“要训练好AI不容易，但要让它崩溃，那我有一万种办法。”该观点指出。

无独有偶，美国斯坦福大学也有人工智能研究人员发表论文中研究了模型崩溃的问题。在这项工作的研究者看来，将合成数据添加到现实世界数据中而不是替换它，并不会引起任何重大问题。但该作者补充道：“所有关于模型崩溃的研究都得出一个结论，那就是高质量且多样化的训练数据至关重要。”

相关论文信息：

https://www.nature.com/articles/s41586-024-07566-y

12月16日，在2023开放原子开发者大会上，腾讯云宣布将企业级分布式数据库TDSQL的社区发行版OpenTenBase 捐赠给开放原子 12月18日，以“云智融合·共筑未来”为主题的首届龙蜥操作系统大会在北京举行。 “将云计算时代、大数据时代 ·“这项研究似乎说明，长期生活在食品不安全的状况中所带来的危害是没那么容易逆转的。研究也表明，对于那些因 ·“这项研究似乎说明，长期生活在食品不安全的状况中所带来的危害是没那么容易逆转的。研究也表明，对于那些因中新网1月1日电据国家地震台网官方微博消息，中国地震台网自动测定：1月1日15时10分在日本本州西岸近海附近(北纬37.98度，东关于重点研发计划项目重大事项调整的公示根据《湖南省创新型省份建设专项资金管理办法》（湘财教〔2023〕3号）和《。

本文链接：《自然》封面：以AI生成数据训练AI，模型变傻？http://www.sushuapos.com/show-11-9179-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：阿根廷科学家“省吃俭用”应对资金危机

下一篇：深紫外世界里的“追光者”

《自然》封面：以AI生成数据训练AI，模型变傻？

热门资讯

推荐资讯

科学最热文章