“VLA和世界模型不是替代和被替代的关系”

发布时间: 2026-03-30 09:42:24 来源：澎湃新闻

观看：81

一段时间以来，围绕VLA（Vision-Language-Action，视觉－语言－行动）模型、WMA（World-Model–Action，“世界模型+动作策略”）模型两条路线的讨论，是具身智能领域里的热点话题。现在，大家似乎不约而同地决定放下争议，协同前行。

日前，智元机器人启动了一项机器人赛事AGIBOT WORLD CHALLENGE @ ICRA 2026（以下简称 ICRA 2026），两大核心赛道即为Reasoning to Action（推理-操作）和World Model（世界模型）。前者包括线上仿真与线下真机两个阶段，后者则聚焦具身智能中的生成与预测能力，采用线上竞赛方式。

3月25日，智元Genie业务部生态及解决方案总监沈咏剑在接受包括澎湃科技（www.thepaper.cn）在内的媒体采访时表示，从长期趋势看，世界模型与VLA并不一定是替代关系，未来存在结合的可能。“从解决问题的层面上来说，有可能会有一些融合或者说合作的状态，二者不算是替代和被替代的关系。”

VLA曾一度被视为具身智能的重要主流路径，即让机器人基于视觉输入和语言指令，直接完成动作生成与执行。但随着机器人开始进入更复杂、更长链条的任务场景，仅仅“看懂指令并做出动作”已不够。机器人还需要理解任务目标、拆解步骤、推演环境变化，并在执行过程中持续调整策略。

沈咏剑介绍，此次赛事中设置的世界模型赛道考察的是模型根据机器人动作建模物理环境动态的能力。参赛者需要基于真实机器人观测与动作信号，训练视频生成模型，生成机器人在多个真实任务场景中的交互视频

另一条“推理－操作”赛道，同样考核的是机器人去理解－执行任务这一具体过程。沈咏剑提到，去年的比赛更多是“叠衣服”这类相对明确、固定的任务，机器人基本是“让它做什么，它就做什么”；而今年则加入了更多需要机器人先理解任务、再进行拆解和执行的场景，例如“整理桌面”这类任务，机器人不仅要完成动作，还要先理解什么算整洁、先做什么后做什么，再完成整套流程。

沈咏剑认为，当前世界模型的定义还未收敛，其核心可以概括为一种对未来状态的预测与推演能力：系统基于当前可见的多模态信息，判断下一时刻可能发生什么，或者在接收到任务指令后，推演机器人自身及周围环境接下来会发生怎样的变化。在他看来，这与当前VLA的范式并不完全相同，是相对独立的一条技术路线。

从智元近一年的公开布局看，该公司本身也并未只围绕单一路线推进。智元在2024年底推出了AgiBot World，包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。2025年3月，智元发布首个通用具身基座模型——智元启元大模型（Genie Operator-1）。今年1月，智元又发布了Genie Sim 3.0仿真平台，该平台基于NVIDIA Isaac Sim构建，融合三维重建与视觉生成技术，可实现数字孪生级高保真环境。与此同时，围绕推理与操作融合、全身控制等方向，2026年1月，智元具身研究中心宣布推出第二代一体化具身大小脑系统GenieReasoner。

沈咏剑表示，当前整个具身智能行业的人才仍处于稀缺状态，特别是高素质、顶尖的算法人才，他们希望通过赛事吸引更多优秀人才进入这一领域。