设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

我国大模型成果首次登上《自然》正刊

发布时间: 来源: 北京青年报

近日,北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》,预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2018年以来,GPT采用“预测下一个词元(NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

智源研究院提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实验显示,Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合CLIP和大语言模型的主流方案比肩。此外,Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是,智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《自然》编辑点评这项研究:Emu3仅基于预测下一个词元,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》,预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2018年以来,GPT采用“预测下一个词元(NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

智源研究院提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实验显示,Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合CLIP和大语言模型的主流方案比肩。此外,Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是,智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《自然》编辑点评这项研究:Emu3仅基于预测下一个词元,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。17D速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

记者3月18日从安徽明天氢能科技股份有限公司(以下简称明天氢能)获悉,国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖,获奖项目为“大规模氢电一体化站关键技术、核心装备及 3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。火箭飞行24分钟后,星箭分离,将鹊桥二号中继星直接送入近地点高度200公里、远地点高度42   30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入预定轨道。作为公共中继星平台,“鹊桥二号” 3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各个版本的具体售价。但据媒体报道,huawei相关 记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较于2Gbps观测,该技术理论上可将图像信噪比提升 3月22日,中国互联网络信息中心(CNNIC)发布第53次《中国互联网络发展状况统计报告》(以下简称《报告》)。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2480万人,互联网 。

本文链接:我国大模型成果首次登上《自然》正刊http://www.sushuapos.com/show-2-15087-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 告别算法恐惧:听听这位“翻译官”怎么说

下一篇: 2025年度能源行业十大科技创新成果发布

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜