8月9日,宇树科技创始人、CEO王兴兴在北京举行的世界机器人大会上,谈及当前智能机器人暂时还没得到大规模应用的技术障碍时表示,最大的挑战是模型。“现在对具身智能和机器人来说,AI模型完全不够用,这也是限制当前人形机器人大规模应用最大的卡点。”此外,王兴兴对目前机器人公司选择的常用技术路线VLA模型架构持怀疑态度。
王兴兴在2025世界机器人大会上的发言
VLA模型指的是Vision-Language-Action Model(视觉-语言-动作模型),可以把它理解为——让机器“看得懂、听得懂,并且能动起来”的一种AI模型,强调像人一样,从感知环境到自主决策并采取一定的行动。
王兴兴认为,对于VLA模型,目前在真实世界交互中,数据采集的质量和数量都不足,即便在VLA模型基础上加入Reinforcement Learning(强化学习训练),仍不够用,模型本身还需要进一步升级和优化。
“目前机器人大模型类似于处在ChatGPT出来前的一到三年。”王兴兴称。
什么时候才能达到机器人GPT时刻?
王兴兴认为,如果有一天,我们带一台机器人到一个它此前从未去过的环境,随便给它一个指令,譬如“把这瓶水递给某位观众”或“帮忙整理一下这个房间”,它就能顺畅、自主地完成任务。那时就接近机器人的“GPT时刻”了。
今年5月,谷歌在I/O 开发者大会上正式发布了新的世界模型Veo 3,这是其首款能够同步生成音效(包括环境音与对话)的AI视频生成模型。
王兴兴认为,谷歌这条视频生成路线技术的收敛速度和成功概率可能会比VLA模型更高,但仍然面临还有很多挑战。其中一个主要问题是,视频生成模型过于关注画质,导致GPU消耗非常大。
另外,王兴兴指出,目前还面临的一个大问题是,如果要进一步提升机器人模仿学习的能力,必须解决Scaling law,而这一点目前行业做得并不好。“最简单的例子是,当我训练机器人执行一个新动作,比如学一支新舞或完成一项新任务时,往往需要从零开始训练,这非常低效。理想情况下,新的训练应该基于已有训练成果,让训练速度越来越快,学习新技能的效果越来越好。”
王兴兴指出,这是一个非常值得深入研究的方向,Scaling law在语言模型上的成功已经得到验证,但在机器的运动控制上,大家做的还只是刚刚开始,他建议可以关注这方面的研究。
王兴兴表示,在未来两到五年,除了更低成本、更高寿命的硬件之外,机器人的技术核心仍将是端到端的具身智能AI模型。
如果有一只眼睛,能帮我们一直看到中国南海海底深处,会看到什么? 除了深邃黑暗的海洋,慢慢爬动的潜铠虾和海底岩石等,好像还有 12月19日,湖北省医工交叉创新大会暨首届医疗器械科技成果展示交易会上,湖北金融赋能医工交叉创新发展计划发布。据悉,截至 中新网伦敦1月2日电 (彭欣怡)当地1月2日,英国气象局发布数据指出,2023年是英国自1884年有气象记录以来第二热的一年,仅 据“浙江大学”微信公众号1月2日消息,加利福尼亚大学伯克利分校数学系正教授孙崧日前加盟浙江大学数学高等 关于全国科普工作先进集体和先进工作者拟推荐名单的公示 根据《科技部 中央宣传部 中国科协关于评选表彰全国科普 我国工程师领域又添了一个国家级的大奖。19日上午,“国家工程师奖”表彰大会在人民大会堂举行,81名个人被授予“国家 。本文链接:王兴兴:人形机器人规模应用的最大卡点是AI模型不够用http://www.sushuapos.com/show-11-24502-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 儿科专家余波突发疾病逝世,年仅50岁
下一篇: 月球科研转向:从地质解密到工程应用