我国大模型成果首次登上《自然》正刊

发布时间: 2026-01-30 09:34:02 来源：北京青年报

观看：109

近日，北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》，预计2月12日纸质版正式刊发，这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来，GPT采用“预测下一个词元（NTP）”的自回归路线，实现了语言大模型重大突破，开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线，自回归路线是否可以作为通用路线统一多模态？一直是未解之谜。

智源研究院提出的Emu3模型，基于“预测下一个词元”的全新多模态模型，将图像、文本和视频统一离散化到同一个表示空间中，并从零开始，在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”，就能够同时支持高水平的生成能力与理解能力，并且在同一统一架构下，自然地扩展到机器人操作以及多模态交错等生成任务。

实验显示，Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美：在文生图任务中，其效果达到扩散模型水平；在视觉语言理解方面，可以与融合CLIP和大语言模型的主流方案比肩。此外，Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型，Emu3通过自回归方式逐词元（token）预测视频序列，实现基于因果的视频生成与延展，展现出对物理世界中环境、人类与动物行为的初步模拟能力。

这项成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是，智源研究团队对相关研究的多项关键技术与模型进行了开源，以推动该方向的持续研究。

《自然》编辑点评这项研究：Emu3仅基于预测下一个词元，实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

近日，北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》，预计2月12日纸质版正式刊发，这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来，GPT采用“预测下一个词元（NTP）”的自回归路线，实现了语言大模型重大突破，开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线，自回归路线是否可以作为通用路线统一多模态？一直是未解之谜。

智源研究院提出的Emu3模型，基于“预测下一个词元”的全新多模态模型，将图像、文本和视频统一离散化到同一个表示空间中，并从零开始，在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”，就能够同时支持高水平的生成能力与理解能力，并且在同一统一架构下，自然地扩展到机器人操作以及多模态交错等生成任务。

实验显示，Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美：在文生图任务中，其效果达到扩散模型水平；在视觉语言理解方面，可以与融合CLIP和大语言模型的主流方案比肩。此外，Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型，Emu3通过自回归方式逐词元（token）预测视频序列，实现基于因果的视频生成与延展，展现出对物理世界中环境、人类与动物行为的初步模拟能力。

这项成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是，智源研究团队对相关研究的多项关键技术与模型进行了开源，以推动该方向的持续研究。

《自然》编辑点评这项研究：Emu3仅基于预测下一个词元，实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

据法新社巴黎3月15日报道，15日发布的一项新的重要分析称，影响神经系统的疾病——如中风、偏头痛和痴呆症——已经超过心脏病，成为全球范围内导致人们健康损害的主要原因。据阿根廷布宜诺斯艾利斯经济新闻网报道，一项国际研究发现，阿尔茨海默病的早期症状可能表现在视力上。研究显示，即便眼科检查结果正常，但阅读、估计距离和触及物体的困难都是可能揭示阿尔茨海默病自2019年以来，科学家已经在国际空间站上培育出了包括人类大脑、心脏和乳房在内的多个类器官模型。这些类器官通常利用人类干细胞培育而成，在一系列化学生长物质的帮助下，干细胞可发育成类似人体瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备，这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬件设计铺平了道路。这项研究发表在最新一期回望一加去年的整体节奏，如果要用一个词来总结其数字系列和Ace系列的概况，那就是“卷”！从外观质感、内存性能到整机体验，与友商的相互竞争中，一加表现的都比较强势，搭配清晰的产品定位策略和稳扎稳打 3月22日，中国互联网络信息中心（CNNIC）在京发布第53次《中国互联网络发展状况统计报告》。报告显示，截至2023年12月，我国网民规模达10.92亿人，互联网普及率达77.5%；网络基础设施建设持续加强，新型消费。

本文链接：我国大模型成果首次登上《自然》正刊http://www.sushuapos.com/show-2-15087-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：告别算法恐惧：听听这位“翻译官”怎么说

下一篇： 2025年度能源行业十大科技创新成果发布

我国大模型成果首次登上《自然》正刊

热门资讯

推荐资讯

科技最热文章