设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

通用智能体落地,如何破解“实习生困境”

2025-12-11 09:47:16 来源: 中国科学报

 Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

日前,由中国互联网协会主办的2025“人工智能+”产业生态大会在北京中关村举办。会上,衔远科技首席技术官张开颜在分享中谈到,当前企业在落地通用智能体过程中面临着“实习生困境”:“10分钟就能做出一个惊艳的演示案例(Demo),但落地却数以月计,且困难重重。”Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何跨越通用智能体的实习生困境?以下为张开颜对此的相关分享。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

张开颜。衔远科技供图
Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通用智能体的“实习生困境”Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从ChatGPT发布,到今年各类大模型层出不穷,搭建一个智能体Demo变得前所未有的简单。10分钟,我们就能做出一个惊艳的演示(Demo),但落地却数以月计,且困难重重。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们发现,解决行业长尾问题的边际成本,正在呈指数级上升。目前的通用智能体,就像是一个名校毕业的“高智商实习生”——Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基础模型的预训练赋予了其博学的知识,数学和代码的强化学习带来了极强的逻辑推理,但在垂直领域的实际应用中,依然“眼高手低”。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根本原因在于:基础模型被“困”在了数学、代码和通用的文本环境中。它们从海量预训练语料中学会了专家的“台词”,却不懂业务背后的“逻辑与因果”。它们缺乏在真实业务环境中的经验学习,这也是目前通用基础模型面临的最大天花板。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“通专融合”的技术路径Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一段时间以来,通过多个阶段的规模法则(Scaling Law),大模型的通用泛化能力确实在显著提升,但专业性依然不足。反观历史上达到专家级别的专业AI,无一不是在特定的专业场景中进行了海量的自我博弈与强化学习。当然,过去这种成本是极高的。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对此,上海人工智能实验室主任、衔远科技创始人周伯文,早在三年前就预判了这一瓶颈,并提出了“通专融合”的技术路径。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一路径包含三个层次。首先是基础模型层,需要全新的模型架构设计,实现“知识”与“推理”的解耦。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而对于应用层创业公司来说,我们更关注接下来的第二、第三层。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二层是“融合协同层”,我们需要实现通用模型与专业知识、专业工具的深度协同推理。第三层是“探索进化层”,这是最关键的一层——大模型必须在环境中进行交互,通过探索和反馈不断提升专业能力。通过在大量专业环境中的经验学习,最终反哺通用能力的提升。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI的下半场:“经验学习”Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上,今年以来“通专融合”已不再只是我们的预测,而是正在成为国际行业的共识。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2024年诺贝尔化学奖得主、DeepMind创始人戴密斯·哈萨比斯在今年5月就明确表示,DeepMind目前的重心全在“通用+专业”的结合上。而“强化学习之父”理查德·萨顿在今年4月说得更直接:AI 发展的“上半场”是从人类标注数据中学习知识,而下半场则是“经验学习”。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于智能体应用而言,现在的关键点,已经从模型架构和训练算法,转移到了现实世界的任务定义与评估体系重构。只有这样,才能支持专家智能体的能力进化。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于上述问题,我们给出的解法便是“衔远大观”。它不是一个简单的智能体编排工具,而是一个进化引擎。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它的逻辑可以用这样一个公式来表达:Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

专家能力=(基础模型×仿真环境)强化学习Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这里,通用模型只提供“底座智力”,我们真正的壁垒,在于中间这一项——“环境”。没有环境,强化学习就没有奖励信号 (Reward),模型就无法进化。 换句话说,我们不只是在写提示词(Prompt),而是在构建一个能让智能体“摔跟头”的虚拟世界。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更进一步,我们发现了一个有趣的现象:当不同智能体的训练环境叠加时,跨领域任务的强化学习不仅不会降低效率,反而能通过迁移学习,极大地促进专业能力的提升。而这,正是通专融合的根本价值所在。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

让智能体“摔跟头”的虚拟世界如何构建Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何构建一个能让智能体“摔跟头”的虚拟世界?我们通过自研“衔远大观”,探索出三大技术内核。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,是智能体的“模拟训练场”。不仅要提供一个静态的“考场”,还要赋予其动态的“宇宙”。其中的考量是,如果完全依赖真实历史数据,我们永远无法覆盖那些罕见但致命的“黑天鹅”场景。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,我们利用程序化规则,合成出海量的、现实中极少发生的边缘案例。为了解决外部工具调用不稳定的问题,我们引入了生成式世界模型(World Model)来模拟环境反馈。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更重要的是,这个环境具备“课程学习”(Curriculum Learning)能力。就像游戏设计一样,它会根据AI当前的水平,自适应地调整难度。AI只有通关了“简单模式”,才能进入“困难模式”。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二,是“接近专家水准的反馈机制”,也就是自适应奖励。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统的强化学习往往只提供最终结果,这对于长链条的复杂任务来说,信号过于稀疏。就像学高数,老师只告诉你期末挂科了,却不说错哪一步,你永远学不会。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在“大观”里,我们引入了“过程奖励”。对于数学、物理等精确的专业领域,我们采用类似DeepSeek R1的思路,将指标映射为可验证的规则奖励。而对于复杂的物理世界,我们用动力学公式进行程序化验证。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

甚至,我们赋予了AI“好奇心”。我们团队今年和清华大学首次提出了测试时强化学习算法(TTRL),引入基于自我一致性的“内在奖励”机制。这项工作刚刚被AI顶会NeurIPS收录。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三,是让学习更经济的“高效强化学习引擎”。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练专家级AI非常消耗资源,不能只靠蛮力计算。我们利用强化学习稀疏奖励的特性,通过“低秩适应”(LoRA)只更新极少量参数,在保证性能同时能够实现高效训练。而在面对复杂的多阶段任务时,我们采用多智能体强化学习(MARL),平衡不同模型的专业能力和推理成本。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

即使面对无法改动参数的闭源模型,我们也能通过上下文强化学习(In-Context RL),优化它的记忆经验库,让它在对话流中变得越来越聪明。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总结一下,高保真的环境、专家级的密集反馈、高效的进化引擎,这就是“衔远大观”这台“数字风洞”的内部运作机制。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从智能体进化平台到企业智能涌现平台Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于衔远大观的进化能力,我们进一步系统构建了三层平台:底层的数据管理、中间的进化引擎、上层的专家智能体管理。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在应用层,我们将智能体分为两类:一类是指挥规划智能体(CIP),是在作战指挥室进行决策的“诸葛亮”;一类是协同执行智能体(Syngents),是在战场上执行任务的“赵子龙”。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以前企业买AI是买软件,现在是买“数字员工”。我们的平台,实际上就是这些数字员工的“入职培训中心”和“终身学习中心”。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于这套平台,我们已经构建了多个行业的专家级智能体。比如,在生物信息行业,我们与国家蛋白质科学中心合作构建的智能体,能提出新的科学假设,并自动进行蛋白质组学数据分析。实测显示,其分析速度比人工快10倍,且约有25~30%的自动生成假设,达到了研究生水平的原创性与合理性。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在建筑行业,我们与某头部央企合作构建了“计划编制智能体”。它既能从“经验驱动”到“模型驱动”,实现智能计划编制;又能从“事后补救”到“事前预见”,实现智能风险预警。相比人工,计划编制时间节省70%,工期延误全面受控,并为某中型企业降本3300万元。我们还为供应链领域行业头部企业构建了“国际物流多式联运路径规划智能体”,它结合大模型对多源路况的实时感知,以及运筹学求解器的最佳路径计算,将应急物流规划的时间从几小时缩短到了几分钟。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据终将耗尽,但环境可以无限生成数据。我们坚信,高质量的智能体环境,将是2026年最稀缺的资产。我们也希望与各行各业的专家携手合作,将各领域深厚的行业“know-how”,转化为智能体的训练场,一起构建真正专家级别的智能体。Mi6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:通用智能体落地,如何破解“实习生困境”http://www.sushuapos.com/show-11-29309-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 罗丹:一位青年科学家的“闯劲”与“定力”

下一篇: 卓越工程师培养为何成为中国式现代化进程中的关键变量

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜