用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃
中新网北京7月27日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。
该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。
生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。
论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及合作者一起,用数学模型演示了AI模型可能会如何出现模型崩溃。他们证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。
随后,论文作者还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。
论文作者指出,为了让人工智能成功使用其自身输出进行训练,本次研究认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。(完)
在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月18日,故宫博物院与钉钉战略合作签约仪式在故 近年来,电动自行车以便利性受到大众青睐,但相关起火事故威胁着居民的生命财产安全。据国家消防救援局发布的统计数据,2023年全国共接报电动自行车火灾2.1万起,比2022年增加17.4%。电动自行车起火 3月18日,记者从中南大学生殖与干细胞研究所获悉,研究所林戈、卢光琇教授团队提出的一项新理论称,原始生殖细胞的性染色体组成在人类性别决定中起关键作用。相关论文日前发表于国际生殖领域杂志 瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬件设计铺平了道路。这项研究发表在最新一期 中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和区域百米级尺度数值预报的精度,显著减小全球 记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴,预计地磁活动将持续到26日。在此影响之下,空间站可能因大气拖拽造成轨道高 。本文链接:用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃http://www.sushuapos.com/show-2-7855-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 月球稀薄大气从何而来