设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI发展:训练数据即将遭遇瓶颈

2025-01-02 09:51:18 来源: 中国科技网

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这正在引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据集供需失衡jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新方法有待印证jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据匮乏对AI的传统扩展策略构成了潜在挑战。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

小模型更专更精jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这正在引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据集供需失衡jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新方法有待印证jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据匮乏对AI的传统扩展策略构成了潜在挑战。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

小模型更专更精jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。jm7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:AI发展:训练数据即将遭遇瓶颈http://www.sushuapos.com/show-2-9987-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 商业气象小卫星数据首次获准进入我国气象业务系统

下一篇: 帕克探测器创人造物体“触摸”太阳距离新纪录

热门资讯

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 凌晨重磅!英伟达官宣最强AI芯片

    北京时间凌晨4点至6点,英伟达联合创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开了2024年英伟达GTC大会的序幕。黄仁勋宣布,正

  • 海龟深潜时一分钟心跳只有两次

    据《日本经济新闻》3月19日报道,东京大学副教授坂本健太郎等人研究发现,海龟下潜时心率将急剧下降。海龟与鲸等哺乳类动物同样,心率随下潜深度加深而

  • “量子龙卷风”吹开黑洞研究之门

    英国科学家首次创造了一个新颖的实验平台,即“量子龙卷风”。它能模拟超流体氦中的黑洞,使研究人员能更详细地观察类似黑洞的行为以及与周围环境的相

  • 锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • 2999元!卢伟冰:xiaomiCivi 4 Pro可能是2024年最轻薄的电话

    3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的

  • huawei回应P70预售时间曝光:假的 最近没有官方消息透露

    3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各

  • 首批量子测量领域国家标准发布

    随着量子技术的发展,利用量子特性突破传统测量技术极限的新一代精密测量技术——量子测量开始得到应用。记者从中国计量科学研究院获悉,由

  • 1799元!红米狙击一加Ace3V 简直就是来捣乱的

    一加Ace 3V刚发布,就被红米砍了一刀!随着昨天一加Ace 3V的发布,新一轮中端机的内卷终于拉开了序幕。 而且这电话售价居然还不增反降,直接1999起步。 先来回

  • 京东与OPPO重磅合作:销售额3年翻倍!

    3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产

  • 千元机皇 小8Gen3+1.5K直屏+5500mAh大电池 有点香啊!

    回望一加去年的整体节奏,如果要用一个词来总结其数字系列和Ace系列的概况,那就是“卷”!从外观质感、内存性能到整机体验,与友商的相互竞争中,一加表现的都

  • 我国网民规模达10.92亿人 互联网普及率达77.5%

    3月22日,中国互联网络信息中心(CNNIC)发布第53次《中国互联网络发展状况统计报告》(以下简称《报告》)。《报告》显示,截至2023年12月,我国网民规模达10.9

推荐资讯

  • 日榜
  • 周榜
  • 月榜