大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——
近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”,彰显出使用可靠数据训练AI模型的重要性。
该论文被放在《自然》封面介绍,配图为“Garbage Out”(垃圾出)。图源:Nature
研究团队给出一个例子。他们测试了Meta的OPT-125m模型,询问了关于中世纪建筑的相关信息,并且每一次微调都是由上一次生成的数据来训练。结果,前面几轮的回答还算过关,但随着生成内容的迭代,模型逐渐语无伦次;到第九次,模型居然开始“胡说八道”,回答从讨论建筑跳跃到一串“野兔”的名字……
该论文主要作者表示,他们曾考虑过合成数据可能对大模型造成误差,但未曾预料到模型的恶化速度会如此迅速。
对此,研究团队专门定义了“模型崩溃”:模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。同时,研究团队还分析了导致大模型同原始模型发生偏离的三个误差原因。
经过理论分析,研究人员指出,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃似乎是一个不可避免的结局。作者团队认为,用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。
这一研究给AI训练敲响了警钟。当下,大语言模型等生成式AI工具越来越受欢迎,这些模型工具主要使用人类生成的数据进行训练。然而,随着这些AI模型工具被大量使用,它们生成的内容会逐渐充斥于互联网,未来计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。
不过,也有业内人士认为,这项研究的逻辑有些问题,毕竟“训练一个失败的模型要比训练成功一个模型要容易得多”。该观点指出,训练AI模型过程中除了对数据的选择之外,还有强化学习、模型精调等必要方法;即便是使用AI合成数据,基本上也都有各种生成方式的设计和严格的筛选。
“要训练好AI不容易,但要让它崩溃,那我有一万种办法。”该观点指出。
无独有偶,美国斯坦福大学也有人工智能研究人员发表论文中研究了模型崩溃的问题。在这项工作的研究者看来,将合成数据添加到现实世界数据中而不是替换它,并不会引起任何重大问题。但该作者补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。”
相关论文信息:
https://www.nature.com/articles/s41586-024-07566-y
12月16日,2023科技伦理高峰论坛在复旦大学成功举办。来自中国科协及海内外知名高校、科研机构的150多位专家学者汇聚一堂 过去的数个月,对我国道路交通智能检测领域知名专家赵祥模教授来讲,一如既往地保持着忙碌而有序的“快节奏”,他从容地在多 12月16日至17日,由中国科学院高能物理研究所主办的南方先进光源指导委员会新能源与器件工作组研讨会在位于广东东莞的中 近日,“张雪峰称文科都是服务业”这一词条引发网友关注与热议。此前,“考研名师”张雪峰还说过,即使把孩子打晕,也不要 呼吸道合胞病毒在国内终于有了预防性药物。 2024年1月2日,阿斯利康与赛诺菲共同宣布,长效单克隆抗体尼塞韦单抗(商品名:乐 1月18日,浙江科技大学、嘉兴大学分别在杭州、嘉兴举行揭牌仪式。面向未来,两所高校提出了各自的发展目标。 浙江科技大学 。本文链接:《自然》封面:以AI生成数据训练AI,模型变傻?http://www.sushuapos.com/show-11-9179-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 阿根廷科学家“省吃俭用”应对资金危机
下一篇: 深紫外世界里的“追光者”