王兴兴：人形机器人规模应用的最大卡点是AI模型不够用

发布时间: 2025-08-11 10:38:34 来源：澎湃新闻

观看：161

8月9日，宇树科技创始人、CEO王兴兴在北京举行的世界机器人大会上，谈及当前智能机器人暂时还没得到大规模应用的技术障碍时表示，最大的挑战是模型。“现在对具身智能和机器人来说，AI模型完全不够用，这也是限制当前人形机器人大规模应用最大的卡点。”此外，王兴兴对目前机器人公司选择的常用技术路线VLA模型架构持怀疑态度。

王兴兴在2025世界机器人大会上的发言

VLA模型指的是Vision-Language-Action Model（视觉－语言－动作模型），可以把它理解为——让机器“看得懂、听得懂，并且能动起来”的一种AI模型，强调像人一样，从感知环境到自主决策并采取一定的行动。

王兴兴认为，对于VLA模型，目前在真实世界交互中，数据采集的质量和数量都不足，即便在VLA模型基础上加入Reinforcement Learning（强化学习训练），仍不够用，模型本身还需要进一步升级和优化。

“目前机器人大模型类似于处在ChatGPT出来前的一到三年。”王兴兴称。

什么时候才能达到机器人GPT时刻？

王兴兴认为，如果有一天，我们带一台机器人到一个它此前从未去过的环境，随便给它一个指令，譬如“把这瓶水递给某位观众”或“帮忙整理一下这个房间”，它就能顺畅、自主地完成任务。那时就接近机器人的“GPT时刻”了。

今年5月，谷歌在I/O 开发者大会上正式发布了新的世界模型Veo 3，这是其首款能够同步生成音效（包括环境音与对话）的AI视频生成模型。

王兴兴认为，谷歌这条视频生成路线技术的收敛速度和成功概率可能会比VLA模型更高，但仍然面临还有很多挑战。其中一个主要问题是，视频生成模型过于关注画质，导致GPU消耗非常大。

另外，王兴兴指出，目前还面临的一个大问题是，如果要进一步提升机器人模仿学习的能力，必须解决Scaling law，而这一点目前行业做得并不好。“最简单的例子是，当我训练机器人执行一个新动作，比如学一支新舞或完成一项新任务时，往往需要从零开始训练，这非常低效。理想情况下，新的训练应该基于已有训练成果，让训练速度越来越快，学习新技能的效果越来越好。”

王兴兴指出，这是一个非常值得深入研究的方向，Scaling law在语言模型上的成功已经得到验证，但在机器的运动控制上，大家做的还只是刚刚开始，他建议可以关注这方面的研究。

王兴兴表示，在未来两到五年，除了更低成本、更高寿命的硬件之外，机器人的技术核心仍将是端到端的具身智能AI模型。

NewsGuard的团队已识别出614个不可靠的人工智能生成的新闻和信息网站，涵盖15种语言。其中一些网站每天会生成数百甚至数根据近日发表于《科学-机器人》的一项研究，人们可以学习用眼睛和胸部肌肉控制第三条手臂。研究人员称，这种“额外肢体”可 12月18日23时59分，甘肃省临夏回族自治州积石山保安族东乡族撒拉族自治县发生6.2级地震，震源深度10公里。截至19日16时50分过去的数个月，对我国道路交通智能检测领域知名专家赵祥模教授来讲，一如既往地保持着忙碌而有序的“快节奏”，他从容地在多想象一下，在野外调查时，从森林或公园沿着小径行走时，需要走多远才能遇到一个新物种？从生态采样的角度来看，新种就是同一科技日报讯（记者张佳星）我国的临床资源十分丰富，但原创医学科研成果质量和规模与临床资源却不相匹配。如何进一步提升。

本文链接：王兴兴：人形机器人规模应用的最大卡点是AI模型不够用http://www.sushuapos.com/show-11-24502-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：儿科专家余波突发疾病逝世，年仅50岁

下一篇：月球科研转向：从地质解密到工程应用

王兴兴：人形机器人规模应用的最大卡点是AI模型不够用

热门资讯

推荐资讯

科学最热文章