京产大模型成果登上国际顶级期刊

发布时间: 2026-01-30 09:33:52 来源：北京日报

观看：84

当地时间1月28日，北京智源人工智能研究院的一项突破性研究成果在国际顶级学术期刊《自然》（Nature）上线，这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来，GPT采用“预测下一个词元（Next-token prediction，NTP）”的自回归路线，实现了语言大模型重大突破，开启了生成式人工智能浪潮。而擅长同时处理文字、图片、视频等多种形态信息的多模态模型主要依赖对比学习、扩散模型等专门路线。在此背景下，一个重要问题困扰行业数年：能否用一种简单、统一的方法即自回归路线，让AI（人工智能）同时学会高效地处理文字、图片和视频？

智源这项名为“通过预测下一个词元进行多模态学习的多模态大模型”的成果给出了肯定的答案。该成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，这对于确立自回归成为生成式人工智能统一路线具有重大意义。

记者了解到，长期以来，AI在学习不同类型的“感官”信息时，往往需要“分科而治”——理解文字用一套方法，生成图片用另一套，处理视频又需要不同的专业模型，过程复杂且协同起来较为困难。而智源研究院研发的Emu3模型，借鉴了GPT成功的关键思路“预测下一个词元”，成功统一了对文本、图像及视频的理解与生成能力。打个比方，就如同给AI找到了一个“万能学习法”，无论面对的是一段文字、一张照片，还是一段动态影像，AI都用同一种逻辑去分析和创造。实验表明，这种统一方法在图片生成、图文理解和视频创作等多个任务上，达到了与当前各类专用模型相当的水平，且具备更强的扩展潜力和通用性。

《自然》编辑点评这项研究时表示，基于“预测下一个词元”，Emu3实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

值得一提的是，基于这一核心路径的迭代版本Emu3.5模型，已展现出对物理世界运行规律的初步学习与模拟能力，能够尝试预测场景的下一步变化，为发展更通用、更接近人类认知方式的大模型与智能体奠定了基础。

据悉，自2020年启动“悟道”大模型研究以来，智源研究院持续聚焦大模型的原始创新与长期技术路径探索。2025年6月，智源发布新一代大模型系列成果“悟界”，目标是构建人工智能从数字世界迈向物理世界的关键能力，打造物理世界的人工智能基座模型。该系列模型包括：Emu系列多模态世界模型、RoboBrain跨本体具身大脑、数字孪生心脏、Brainμ脑科学多模态基础模型以及OpenComplex全原子生命模型等，共同构建起覆盖宏观具身智能、介于宏观和微观尺度的生命系统到微观构象动力学的多层次技术基座。

当地时间1月28日，北京智源人工智能研究院的一项突破性研究成果在国际顶级学术期刊《自然》（Nature）上线，这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来，GPT采用“预测下一个词元（Next-token prediction，NTP）”的自回归路线，实现了语言大模型重大突破，开启了生成式人工智能浪潮。而擅长同时处理文字、图片、视频等多种形态信息的多模态模型主要依赖对比学习、扩散模型等专门路线。在此背景下，一个重要问题困扰行业数年：能否用一种简单、统一的方法即自回归路线，让AI（人工智能）同时学会高效地处理文字、图片和视频？

智源这项名为“通过预测下一个词元进行多模态学习的多模态大模型”的成果给出了肯定的答案。该成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，这对于确立自回归成为生成式人工智能统一路线具有重大意义。

记者了解到，长期以来，AI在学习不同类型的“感官”信息时，往往需要“分科而治”——理解文字用一套方法，生成图片用另一套，处理视频又需要不同的专业模型，过程复杂且协同起来较为困难。而智源研究院研发的Emu3模型，借鉴了GPT成功的关键思路“预测下一个词元”，成功统一了对文本、图像及视频的理解与生成能力。打个比方，就如同给AI找到了一个“万能学习法”，无论面对的是一段文字、一张照片，还是一段动态影像，AI都用同一种逻辑去分析和创造。实验表明，这种统一方法在图片生成、图文理解和视频创作等多个任务上，达到了与当前各类专用模型相当的水平，且具备更强的扩展潜力和通用性。

《自然》编辑点评这项研究时表示，基于“预测下一个词元”，Emu3实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

值得一提的是，基于这一核心路径的迭代版本Emu3.5模型，已展现出对物理世界运行规律的初步学习与模拟能力，能够尝试预测场景的下一步变化，为发展更通用、更接近人类认知方式的大模型与智能体奠定了基础。

据悉，自2020年启动“悟道”大模型研究以来，智源研究院持续聚焦大模型的原始创新与长期技术路径探索。2025年6月，智源发布新一代大模型系列成果“悟界”，目标是构建人工智能从数字世界迈向物理世界的关键能力，打造物理世界的人工智能基座模型。该系列模型包括：Emu系列多模态世界模型、RoboBrain跨本体具身大脑、数字孪生心脏、Brainμ脑科学多模态基础模型以及OpenComplex全原子生命模型等，共同构建起覆盖宏观具身智能、介于宏观和微观尺度的生命系统到微观构象动力学的多层次技术基座。

人体免疫系统中的小过滤器淋巴结有了新妙用。近日，浙江大学药学院、金华研究院教授顾臻团队联合多位科研人员，在国际上首次提出利用冷冻干燥的淋巴结组织提升抗肿瘤药物疗效的方法。相关论文发 3月17日记者获悉，哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出，应将预防老年人跌倒与国家基本公共卫生服务中各项服务流程融合起来。该研究全面梳理了美国和法国的科学家联合团队借助新的3D打印技术，开发出一种多层人造皮肤，只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率，并催生更好的皮肤治疗方法。相关研究发表于新一期《先进功能瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备，这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬件设计铺平了道路。这项研究发表在最新一期　　我国成功发射云海二号02组卫星　　中新网北京3月21日电(马帅莎曹译张艳)北京时间2024年3月21日13时27分，我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面级，成功将云海二号02组卫星发射升空，卫星顺利 3月24日消息，今天数码博主“厂长是关同学”曝光了huaweiMate 70系列电话的部分配置信息。该博主表示，huawei全新的Mate 70系列首发会搭载新的芯片，芯片的性能差不多可以比肩5.5nm，还是值得期待的。同。

本文链接：京产大模型成果登上国际顶级期刊http://www.sushuapos.com/show-2-15082-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：我们为什么一定要“星际航行”

下一篇：探访全国首家人形机器人7S店

京产大模型成果登上国际顶级期刊

热门资讯

推荐资讯

科技最热文章