机器人“大脑”“身体”双线突破，为何仍难大规模落地？中国信通院详解

发布时间: 2025-12-17 10:20:36 来源：人民网

观看：75

12月13日，在“2026中国信通院深度观察报告会”上，中国信通院副总工程师许志远表示，当前具身智能已取得认知智能与物理智能的双线突破，但模型路线、数据范式以及最佳机器人形态仍未定型，大规模落地仍处于早期阶段，其未来方向仍在持续竞争与快速演化中。

具身智能取得阶段性突破

仍需关注三大核心争论

许志远介绍，当前具身智能发展已取得阶段性突破。一方面，机器人的“认知智能”（即“大脑”能力）实现明显跃升。大模型使机器人能够完成传统机器人难以处理的复杂任务，具备“可感知、可思考、可交互”的智能特征。另一方面，“物理智能”加速突破。基于强化学习，人形机器人在复杂地形行走、高难度舞蹈等动态任务上表现显著提升；基于模仿学习与大模型范式，上肢操作能力快速增强，已能执行切黄瓜、倒水、叠衣服等精细操作。

“尽管技术突破不断，但具身智能的大规模落地仍处于早期阶段。”许志远指出，当前行业主要存在三方面争论。

一是模型路线之争，大模型范式是否适用于机器人？虽然大模型在语言、图像、视频领域取得巨大成功，但“同样的范式能否直接迁移到机器人控制”仍未被证明。

二是数据训练范式之争，哪类数据才是机器人智能提升的关键？数据仍然是限制机器人能力跃升的核心瓶颈。目前机器人模型主要依赖三类数据：真机数据质量最高但采集昂贵、规模有限；合成/仿真数据规模大、成本低，但逼真度与物理一致性有差距；人类第一视角视频数据自然、丰富，但动作标注与映射存在挑战。当前尚无结论表明机器人是否一定会因为有更多的数据而产生更强的能力。因此，数据范式仍在快速演化，混合数据、多模态数据、世界模型生成数据等方向均在探索中。

三是形态路线之争，人形机器人是否是“真需求”？具身智能的落地呈现出两大派系：一类是“人形坚守派”。这些企业坚持全人形路线，认为人形最契合人类社会现有环境与工具体系，人形形态最利于学习人类动作、利用人类数据，并且长期看具备最大通用性。另一类是折中派。我国今年涌现出多款“轮-臂式复合机器人”，其特点是轮式底盘更可靠、成本更低、部署更简单；动作可控性强，更适合集成到商业场景快速落地。此路径更强调“工程可落地性”，旨在在短期内形成可规模化的商业应用。

进一步引入世界模型

有望提升机器人大模型能力

据许志远介绍，目前，利用大模型提升机器人的泛化能力已成为业界共识，但如何有效地将大模型应用于机器人系统，仍存在多条技术路径，行业也在持续探索中。

第一条路径是采用大语言模型（LLM）对人类指令进行语义理解与任务分解，这是赋予机器人高层智能的关键能力。第二条路径是在LLM的基础上引入视觉，使模型具备语言与视觉跨模态融合能力，通过视觉语言模型（VLM）进行机器人控制。借助视觉信息，模型不仅能分析环境的空间关系和物体属性，也能更好支撑高层任务规划。第三条路径是在VLM的基础上进一步加入动作生成能力，形成视觉—语言—动作模型（VLA）。这类模型以视觉图像和语言指令为输入，直接输出机器人控制指令。

许志远表示，视觉—语言—动作模型路线自2024年底以来受到高度关注。各家厂商在模型架构、模块设计和动作生成方式上不断优化。“然而尽管VLA在结构上不断演进，其实际落地效果仍未达到预期。原因在于物理世界具有高度多样性与不确定性，而当前可获取的机器人数据量级有限、覆盖场景不足。”

许志远指出，展望未来，在视觉—语言—动作模型的基础上引入世界模型（World Model），借助其对物理世界的理解、预测与推演能力，有望成为进一步提升机器人大模型能力的重要发展路径。

合成数据和视频数据更受重视

满足机器人模型训练需求

许志远指出，机器人的真机数据虽然质量最高，但人工采集的成本极高，高质量样本更是稀缺，远远无法满足模型的训练需求。因此，业界开始越来越重视合成数据和视频数据的利用。

具体来看，一方面，业界开始采用混合数据训练模式，先利用合成数据或视频数据进行模型预训练，再用真机数据进行微调。例如，银河通用使用10亿帧合成数据完成抓取模型的预训练；英伟达GROOT N1模型中，合成、视频和真机数据分别占25%、31%和44%。“我们发现，主流方案的非真机数据占比通常在80%—99%，但是哪个比例对于机器人性能提升更加有效仍需产业界来不断试错验证。”许志远表示。

另一方面，今年以来，使用人类第一视角拍摄的视频数据成为破解数据瓶颈的一类重要方案。让操作员佩戴头戴式摄像设备，在不影响日常工作的前提下记录其操作过程，为模型训练提供高质量的人类示范数据。许志远表示，目前国内外多家企业已发布相关项目或进行路线探索。

12月13日，在“2026中国信通院深度观察报告会”上，中国信通院副总工程师许志远表示，当前具身智能已取得认知智能与物理智能的双线突破，但模型路线、数据范式以及最佳机器人形态仍未定型，大规模落地仍处于早期阶段，其未来方向仍在持续竞争与快速演化中。

具身智能取得阶段性突破

仍需关注三大核心争论

许志远介绍，当前具身智能发展已取得阶段性突破。一方面，机器人的“认知智能”（即“大脑”能力）实现明显跃升。大模型使机器人能够完成传统机器人难以处理的复杂任务，具备“可感知、可思考、可交互”的智能特征。另一方面，“物理智能”加速突破。基于强化学习，人形机器人在复杂地形行走、高难度舞蹈等动态任务上表现显著提升；基于模仿学习与大模型范式，上肢操作能力快速增强，已能执行切黄瓜、倒水、叠衣服等精细操作。

“尽管技术突破不断，但具身智能的大规模落地仍处于早期阶段。”许志远指出，当前行业主要存在三方面争论。

一是模型路线之争，大模型范式是否适用于机器人？虽然大模型在语言、图像、视频领域取得巨大成功，但“同样的范式能否直接迁移到机器人控制”仍未被证明。

二是数据训练范式之争，哪类数据才是机器人智能提升的关键？数据仍然是限制机器人能力跃升的核心瓶颈。目前机器人模型主要依赖三类数据：真机数据质量最高但采集昂贵、规模有限；合成/仿真数据规模大、成本低，但逼真度与物理一致性有差距；人类第一视角视频数据自然、丰富，但动作标注与映射存在挑战。当前尚无结论表明机器人是否一定会因为有更多的数据而产生更强的能力。因此，数据范式仍在快速演化，混合数据、多模态数据、世界模型生成数据等方向均在探索中。

三是形态路线之争，人形机器人是否是“真需求”？具身智能的落地呈现出两大派系：一类是“人形坚守派”。这些企业坚持全人形路线，认为人形最契合人类社会现有环境与工具体系，人形形态最利于学习人类动作、利用人类数据，并且长期看具备最大通用性。另一类是折中派。我国今年涌现出多款“轮-臂式复合机器人”，其特点是轮式底盘更可靠、成本更低、部署更简单；动作可控性强，更适合集成到商业场景快速落地。此路径更强调“工程可落地性”，旨在在短期内形成可规模化的商业应用。

进一步引入世界模型

有望提升机器人大模型能力

据许志远介绍，目前，利用大模型提升机器人的泛化能力已成为业界共识，但如何有效地将大模型应用于机器人系统，仍存在多条技术路径，行业也在持续探索中。

第一条路径是采用大语言模型（LLM）对人类指令进行语义理解与任务分解，这是赋予机器人高层智能的关键能力。第二条路径是在LLM的基础上引入视觉，使模型具备语言与视觉跨模态融合能力，通过视觉语言模型（VLM）进行机器人控制。借助视觉信息，模型不仅能分析环境的空间关系和物体属性，也能更好支撑高层任务规划。第三条路径是在VLM的基础上进一步加入动作生成能力，形成视觉—语言—动作模型（VLA）。这类模型以视觉图像和语言指令为输入，直接输出机器人控制指令。

许志远表示，视觉—语言—动作模型路线自2024年底以来受到高度关注。各家厂商在模型架构、模块设计和动作生成方式上不断优化。“然而尽管VLA在结构上不断演进，其实际落地效果仍未达到预期。原因在于物理世界具有高度多样性与不确定性，而当前可获取的机器人数据量级有限、覆盖场景不足。”

许志远指出，展望未来，在视觉—语言—动作模型的基础上引入世界模型（World Model），借助其对物理世界的理解、预测与推演能力，有望成为进一步提升机器人大模型能力的重要发展路径。

合成数据和视频数据更受重视

满足机器人模型训练需求

许志远指出，机器人的真机数据虽然质量最高，但人工采集的成本极高，高质量样本更是稀缺，远远无法满足模型的训练需求。因此，业界开始越来越重视合成数据和视频数据的利用。

具体来看，一方面，业界开始采用混合数据训练模式，先利用合成数据或视频数据进行模型预训练，再用真机数据进行微调。例如，银河通用使用10亿帧合成数据完成抓取模型的预训练；英伟达GROOT N1模型中，合成、视频和真机数据分别占25%、31%和44%。“我们发现，主流方案的非真机数据占比通常在80%—99%，但是哪个比例对于机器人性能提升更加有效仍需产业界来不断试错验证。”许志远表示。

另一方面，今年以来，使用人类第一视角拍摄的视频数据成为破解数据瓶颈的一类重要方案。让操作员佩戴头戴式摄像设备，在不影响日常工作的前提下记录其操作过程，为模型训练提供高质量的人类示范数据。许志远表示，目前国内外多家企业已发布相关项目或进行路线探索。

3月18日是第24个“全国爱肝日”。今年活动的主题是，“早防早筛，远离肝硬化”。重庆多所医院开展义诊咨询活动，通过普及肝病的防治知识，让民众主动筛查、规范治疗、定期随访，提高大众爱肝护肝意识， 3月20日对于我国抗衰老研究是个特殊的日子，经过近3年的不懈努力，八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大课题，抗衰老研究已成为世界生命科学领域关注 “当时是怎样选中低空经济这个领域，并且来深圳发展的？”面对这个关乎事业发展的问题，“95后”台青张晏纶坦言，“这是一场面试带来的惊喜。”张晏纶来自台湾台中市，本科就读于台湾成功大学机械工程在3月24日世界防治结核病日前夕，比尔及梅琳达∙盖茨医学研究所（以下简称盖茨医学研究所）宣布，启动评估结核病候选疫苗M72有效性的Ⅲ期临床试验。在Ⅱb期试验中，数据显示这一新疫苗可为艾滋病毒检瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备，这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬件设计铺平了道路。这项研究发表在最新一期　　30台发动机助进阶版“鹊桥”升空　　中新社西安3月20日电 (记者张一辰)3月20日8时31分，长征八号遥三运载火箭在中国文昌航天发射场顺利升空，成功将“鹊桥二号”卫星送入预定轨道。作为公共中继星平台，“鹊桥二号” 。

本文链接：机器人“大脑”“身体”双线突破，为何仍难大规模落地？中国信通院详解http://www.sushuapos.com/show-2-14546-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：便捷与安全，谁的优先级？豆包手机助手放弃银行App引责任之辩

下一篇：视频丨我国新型无人机成功首飞

机器人“大脑”“身体”双线突破，为何仍难大规模落地？中国信通院详解

热门资讯

推荐资讯

科技最热文章