设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI发展:训练数据即将遭遇瓶颈

发布时间: 来源: 中国科技网

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这正在引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据集供需失衡2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新方法有待印证2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据匮乏对AI的传统扩展策略构成了潜在挑战。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

小模型更专更精2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这正在引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据集供需失衡2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新方法有待印证2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据匮乏对AI的传统扩展策略构成了潜在挑战。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

小模型更专更精2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。2Zd速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人体免疫系统中的小过滤器淋巴结有了新妙用。近日,浙江大学药学院、金华研究院教授顾臻团队联合多位科研人员,在国际上首次提出利用冷冻干燥的淋巴结组织提升抗肿瘤药物疗效的方法。相关论文发 南方财经全媒体记者 吴立洋 上海报道日前,2024中国家电及消费电子博览会(AWE)在上海新国际博览中心闭幕。作为一年一度的家电产业盛会,AWE既是各大厂商展示新技术与新产品的重要节点,也是 3月21日记者从中国科学技术大学获悉,该校物理学院张斗国教授课题组,提出并实现了一种基于矢量光场调控原理的动量空间偏振滤波器件。科研人员将该滤波器件安装于传统无标记光学显微镜的出射端, 记者3月21日获悉,全球植物科学期刊《分子植物》刊载了中国科学家的最新研究,中国农业科学院作物科学研究所、国家南繁研究院与阿里达摩院(湖畔实验室)联合研发出全流程智慧育种平台,实现了育种数 3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的机身,但Civi 4 Pro仍搭载了一块容量为4700mAh 3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2480万人,互联网普及率达77.5%。截 。

本文链接:AI发展:训练数据即将遭遇瓶颈http://www.sushuapos.com/show-2-9987-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 商业气象小卫星数据首次获准进入我国气象业务系统

下一篇: 帕克探测器创人造物体“触摸”太阳距离新纪录

热门资讯

  • 感染新冠会“导致智商下降”吗?

    据英国《泰晤士报》网站3月15日报道,2020年1月,英国帝国理工学院的亚当·汉普希尔与英国广播公司合作,对8万人进行了30分钟的测试,目的是揭示生

  • “95后”的无人机“造像师”

    “当时是怎样选中低空经济这个领域,并且来深圳发展的?”面对这个关乎事业发展的问题,“95后”台青张晏纶坦言,“这是一场面试带来的惊喜。”张晏纶来自

  • 我国科学家揭示东北黑土成因

    记者3月20日从中国科学院地质与地球物理研究所获悉,该所科研人员在东北黑土区开展了大范围的野外调查和样品采集工作,通过分析采集的黑土样品发现,黑

  • 最小资源消耗的量子态分辨实现

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优

  • 一种新的结核病候选疫苗在南非启动Ⅲ期临床试验

    在3月24日世界防治结核病日前夕,比尔及梅琳达∙盖茨医学研究所(以下简称盖茨医学研究所)宣布,启动评估结核病候选疫苗M72有效性的Ⅲ期临床试验。在Ⅱb

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • 光储行业迎来2000V新时代

    3月21日,由安徽省工业和信息化厅指导、中国光伏行业协会主办、阳光电源股份有限公司承办的“PAT2024爱光伏一生一世”先进技术研讨会在合肥举办。光

  • 全球首列氢能源市域列车完成满载运行试验

    3月21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行了时速160公里满载运行试验。当日试验过程中,车以160公里/

  • 南财观察丨操作系统与一座城:全球“鸿蒙之城”深圳造

    21世纪经济报道记者 石恩泽 深圳报道操作系统似乎对地理入迷。鸿蒙和深圳,就像Windows和西雅图,也似Linux和赫尔辛基。这是地理与技术的紧密

  • 首批量子测量领域国家标准发布

    随着量子技术的发展,利用量子特性突破传统测量技术极限的新一代精密测量技术——量子测量开始得到应用。记者从中国计量科学研究院获悉,由

  • 北京市青少年科学教育基地揭牌

    为构建有效联动、密切配合的青少年科学教育协同机制,提升科学教育实施效能,3月23日,北京市关心下一代工作委员会(以下简称“北京市关工委”)、北京市科

  • 中国气象局发布大地磁暴预警,可能会看到极光

    记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴,预计地磁活动将持续到26日。在

推荐资讯

  • 商务部:2025年居民数字消费规模同比增长8.7%

      中新经纬3月27日电 据商务部网站27日消息,2025年居民数字消费规模达25.3万亿元。  2025年,我国居民数字消费规模达25.3万亿元,同比增长8.7%,其中数字服务消费增长12.5%,成

  • 丰田召回超56万辆汽车,涉汉兰达、皇冠陆放等

      中新经纬3月27日电 据国家市场监督管理总局网站27日消息,日前,广汽丰田汽车有限公司、一汽丰田汽车有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条

  • 2025年中国新设个体工商户1619.4万户

      中新经纬3月26日电 据国家市场监管总局微信公众号26日消息,近日,国家市场监管总局公布数据显示,2025年全国新设个体工商户1619.4万户,总体发展平稳,为繁荣消费、稳定就业、服

  • 三大运营商豪气分红!中国移动全年拟派息超千亿

      中新经纬3月26日电 三大运营商2025年成绩单出炉。  中国移动26日在港交所披露《2025年年度业绩》称,2025年公司营运收入稳健增长,达到10502亿元,同比增长0.9%;股东应占利

  • 国家市场监管总局:加大网络食品监管执法力度

      中新经纬3月26日电 据“市说新语”微信号26日消息,近日,市场监管总局召开网络平台食品安全行政指导会,进一步压实网络平台主体责任,落实落细管控措施,着力营造安全放心的网络

  • 商务部:加强对跨国公司在华投资项目服务保障

      中新经纬3月26日电 商务部新闻发言人何咏前26日表示,加强对跨国公司在华投资项目服务保障,滚动更新重点外资项目清单,在数据跨境流动、研发创新、人才引进等方面给予大力支

  • 商务部:进口更多国外优质商品、技术和服务

      中新经纬3月26日电 商务部新闻发言人何咏前26日表示,商务部将充分发挥平台作用,办好进博会等重要展会,扩大“出口中国”品牌影响力,强化精准对接,发挥各方优势,进口更多国外优

  • 外媒:西方天然气公司成中东局势受益者

      中新经纬3月26日电 据路透社报道,美伊局势让西方天然气供应商及贸易商股价成为市场受益者。投资者预计,供应路线可绕开中东地区的企业,将从高能源价格中获得巨额收益。  

  • 拟撤销私人银行专营牌照?交通银行回应:现有业务不受影响

      中新经纬3月25日电 (魏薇)近日,有媒体报道称,交通银行拟申请撤销私人银行专营机构牌照。25日,中新经纬从交通银行方面获悉,为强化财富金融特色,提升客户服务能力,经董事会审议

  • 沪指早盘重回3900点 光纤概念多股涨停

      中新经纬3月25日电 周三早盘,A股三大指数高开高走,上证指数重回3900点。截至午间收盘,上证指数涨0.88%,报3915.49点;深证成指涨1.37%,报13721.49点;创业板指涨1.26%,报3292.55点

  • 泸州银行管理团队变阵,行长、副行长同日辞任

      中新经纬3月24日电 (魏薇)泸州银行23日公告称,董事会接到行长刘仕荣的书面辞呈。刘仕荣因临近退休年龄,辞去行长之职务,自书面辞呈送达董事会时生效。同日,泸州银行副行长薛

  • 国家数据局局长:将加快建立全国统一数据产权登记制度

      中新经纬3月24日电 国新办24日举行新闻发布会,介绍第九届数字中国建设峰会有关情况。国家发展改革委党组成员、国家数据局局长刘烈宏在发布会上表示,将加快建立全国统一的

  • 日榜
  • 周榜
  • 月榜