用AI生成数据训练AI或导致模型崩溃

发布时间: 2024-07-26 16:20:58 来源：科技日报

观看：213

科技日报北京7月25日电（记者张梦然）《自然》24日正式发表的一篇研究论文指出了一个人工智能（AI）严重问题：用AI生成的数据集训练未来几代机器学习模型，可能会严重“污染”它们的输出，这被称为“模型崩溃”。研究显示，原始内容会在9次迭代以后，变成不相关的“胡言乱语”（演示中一个建筑文本最终变成了野兔的名字），这凸显出使用可靠数据训练AI模型的重要性。

生成式AI工具越来越受欢迎，如大语言模型等，这类工具主要用人类生成的输入进行训练。不过，随着这些AI模型在互联网不断壮大，计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

包括英国牛津大学在内的联合团队一直在进行相关研究，并在去年论文预印本中提出这一概念。在正式发表的论文中，他们用数学模型演示了AI可能会出现的“模型崩溃”。他们证明了一个AI会忽略训练数据中的某些输出（如不太常见的文本），导致其只用一部分数据集来自我训练。

团队分析了AI模型会如何处理主要由AI生成的数据集。他们发现，给模型输入AI生成的数据，会减弱今后几代模型的学习能力，最终导致了“模型崩溃”。他们测试的几乎所有递归训练语言模型，都容易出现问题。比如，一个用中世纪建筑文本作为原始输入的测试，到第9代的输出已经是一串野兔的名字。

团队指出，用前几代生成的数据集去训练AI，崩溃是一个不可避免的结局。他们认为，必须对数据进行严格过滤。与此同时，这也意味着依赖人类生成内容的AI模型，或许能训练出更高效的AI模型。

就在ChatGPT推出一周年前夕，其开发机构OpenAI经历了一场令人瞠目的高层“地震”。联合创始人之一的首席科学家伊利亚 “太忙了。”这是清华大学人工智能（AI）国际治理研究院副院长梁正面对记者脱口而出的一句话。去年11 本次甘肃积石山6.2级地震，震中距青海省省界最近距离5公里，青海多地震感强烈。在青海省海东市民和县中川乡金田村， ·“Apollo开放平台9.0拥有极强场景通用能力，适配环节减少40% 、代码阅读量减少90%、代码调试量减少80%，可以实现‘ 12月16日，纪念姜维壮教授诞辰百年学术研讨会暨中国财税史研究院2023年年会在中央财经大学召开。在会上，与会者深切缅怀我 “这些小胶质细胞在tau蛋白病变有效地扩散到下一个细胞之前就开始吸收并降解tau蛋白。没有tau病理学，就不会有神经退。

本文链接：用AI生成数据训练AI或导致模型崩溃http://www.sushuapos.com/show-11-9087-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：韦布发现“超级胖子”行星

下一篇：中国青年女科学家奖20周年：她们走了多远？

用AI生成数据训练AI或导致模型崩溃

热门资讯

推荐资讯

科学最热文章