设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

通用智能体落地,如何破解“实习生困境”

发布时间: 2025-12-11 09:47:16 来源: 中国科学报

 MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

日前,由中国互联网协会主办的2025“人工智能+”产业生态大会在北京中关村举办。会上,衔远科技首席技术官张开颜在分享中谈到,当前企业在落地通用智能体过程中面临着“实习生困境”:“10分钟就能做出一个惊艳的演示案例(Demo),但落地却数以月计,且困难重重。”MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何跨越通用智能体的实习生困境?以下为张开颜对此的相关分享。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

张开颜。衔远科技供图
MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通用智能体的“实习生困境”MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从ChatGPT发布,到今年各类大模型层出不穷,搭建一个智能体Demo变得前所未有的简单。10分钟,我们就能做出一个惊艳的演示(Demo),但落地却数以月计,且困难重重。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们发现,解决行业长尾问题的边际成本,正在呈指数级上升。目前的通用智能体,就像是一个名校毕业的“高智商实习生”——MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基础模型的预训练赋予了其博学的知识,数学和代码的强化学习带来了极强的逻辑推理,但在垂直领域的实际应用中,依然“眼高手低”。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根本原因在于:基础模型被“困”在了数学、代码和通用的文本环境中。它们从海量预训练语料中学会了专家的“台词”,却不懂业务背后的“逻辑与因果”。它们缺乏在真实业务环境中的经验学习,这也是目前通用基础模型面临的最大天花板。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“通专融合”的技术路径MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一段时间以来,通过多个阶段的规模法则(Scaling Law),大模型的通用泛化能力确实在显著提升,但专业性依然不足。反观历史上达到专家级别的专业AI,无一不是在特定的专业场景中进行了海量的自我博弈与强化学习。当然,过去这种成本是极高的。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对此,上海人工智能实验室主任、衔远科技创始人周伯文,早在三年前就预判了这一瓶颈,并提出了“通专融合”的技术路径。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一路径包含三个层次。首先是基础模型层,需要全新的模型架构设计,实现“知识”与“推理”的解耦。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而对于应用层创业公司来说,我们更关注接下来的第二、第三层。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二层是“融合协同层”,我们需要实现通用模型与专业知识、专业工具的深度协同推理。第三层是“探索进化层”,这是最关键的一层——大模型必须在环境中进行交互,通过探索和反馈不断提升专业能力。通过在大量专业环境中的经验学习,最终反哺通用能力的提升。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI的下半场:“经验学习”MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上,今年以来“通专融合”已不再只是我们的预测,而是正在成为国际行业的共识。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2024年诺贝尔化学奖得主、DeepMind创始人戴密斯·哈萨比斯在今年5月就明确表示,DeepMind目前的重心全在“通用+专业”的结合上。而“强化学习之父”理查德·萨顿在今年4月说得更直接:AI 发展的“上半场”是从人类标注数据中学习知识,而下半场则是“经验学习”。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于智能体应用而言,现在的关键点,已经从模型架构和训练算法,转移到了现实世界的任务定义与评估体系重构。只有这样,才能支持专家智能体的能力进化。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于上述问题,我们给出的解法便是“衔远大观”。它不是一个简单的智能体编排工具,而是一个进化引擎。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它的逻辑可以用这样一个公式来表达:MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

专家能力=(基础模型×仿真环境)强化学习MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这里,通用模型只提供“底座智力”,我们真正的壁垒,在于中间这一项——“环境”。没有环境,强化学习就没有奖励信号 (Reward),模型就无法进化。 换句话说,我们不只是在写提示词(Prompt),而是在构建一个能让智能体“摔跟头”的虚拟世界。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更进一步,我们发现了一个有趣的现象:当不同智能体的训练环境叠加时,跨领域任务的强化学习不仅不会降低效率,反而能通过迁移学习,极大地促进专业能力的提升。而这,正是通专融合的根本价值所在。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

让智能体“摔跟头”的虚拟世界如何构建MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何构建一个能让智能体“摔跟头”的虚拟世界?我们通过自研“衔远大观”,探索出三大技术内核。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,是智能体的“模拟训练场”。不仅要提供一个静态的“考场”,还要赋予其动态的“宇宙”。其中的考量是,如果完全依赖真实历史数据,我们永远无法覆盖那些罕见但致命的“黑天鹅”场景。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,我们利用程序化规则,合成出海量的、现实中极少发生的边缘案例。为了解决外部工具调用不稳定的问题,我们引入了生成式世界模型(World Model)来模拟环境反馈。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更重要的是,这个环境具备“课程学习”(Curriculum Learning)能力。就像游戏设计一样,它会根据AI当前的水平,自适应地调整难度。AI只有通关了“简单模式”,才能进入“困难模式”。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二,是“接近专家水准的反馈机制”,也就是自适应奖励。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统的强化学习往往只提供最终结果,这对于长链条的复杂任务来说,信号过于稀疏。就像学高数,老师只告诉你期末挂科了,却不说错哪一步,你永远学不会。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在“大观”里,我们引入了“过程奖励”。对于数学、物理等精确的专业领域,我们采用类似DeepSeek R1的思路,将指标映射为可验证的规则奖励。而对于复杂的物理世界,我们用动力学公式进行程序化验证。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

甚至,我们赋予了AI“好奇心”。我们团队今年和清华大学首次提出了测试时强化学习算法(TTRL),引入基于自我一致性的“内在奖励”机制。这项工作刚刚被AI顶会NeurIPS收录。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三,是让学习更经济的“高效强化学习引擎”。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练专家级AI非常消耗资源,不能只靠蛮力计算。我们利用强化学习稀疏奖励的特性,通过“低秩适应”(LoRA)只更新极少量参数,在保证性能同时能够实现高效训练。而在面对复杂的多阶段任务时,我们采用多智能体强化学习(MARL),平衡不同模型的专业能力和推理成本。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

即使面对无法改动参数的闭源模型,我们也能通过上下文强化学习(In-Context RL),优化它的记忆经验库,让它在对话流中变得越来越聪明。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总结一下,高保真的环境、专家级的密集反馈、高效的进化引擎,这就是“衔远大观”这台“数字风洞”的内部运作机制。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从智能体进化平台到企业智能涌现平台MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于衔远大观的进化能力,我们进一步系统构建了三层平台:底层的数据管理、中间的进化引擎、上层的专家智能体管理。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在应用层,我们将智能体分为两类:一类是指挥规划智能体(CIP),是在作战指挥室进行决策的“诸葛亮”;一类是协同执行智能体(Syngents),是在战场上执行任务的“赵子龙”。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以前企业买AI是买软件,现在是买“数字员工”。我们的平台,实际上就是这些数字员工的“入职培训中心”和“终身学习中心”。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于这套平台,我们已经构建了多个行业的专家级智能体。比如,在生物信息行业,我们与国家蛋白质科学中心合作构建的智能体,能提出新的科学假设,并自动进行蛋白质组学数据分析。实测显示,其分析速度比人工快10倍,且约有25~30%的自动生成假设,达到了研究生水平的原创性与合理性。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在建筑行业,我们与某头部央企合作构建了“计划编制智能体”。它既能从“经验驱动”到“模型驱动”,实现智能计划编制;又能从“事后补救”到“事前预见”,实现智能风险预警。相比人工,计划编制时间节省70%,工期延误全面受控,并为某中型企业降本3300万元。我们还为供应链领域行业头部企业构建了“国际物流多式联运路径规划智能体”,它结合大模型对多源路况的实时感知,以及运筹学求解器的最佳路径计算,将应急物流规划的时间从几小时缩短到了几分钟。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据终将耗尽,但环境可以无限生成数据。我们坚信,高质量的智能体环境,将是2026年最稀缺的资产。我们也希望与各行各业的专家携手合作,将各领域深厚的行业“know-how”,转化为智能体的训练场,一起构建真正专家级别的智能体。MjR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

科技日报北京12月18日电 (记者张佳欣)美国威斯康星大学麦迪逊分校工程师使用超音速冷喷涂技术,生产出一种新的核聚变“ 当地时间12月17日,美国国家航天航空局(NASA)发表声明称,受不利的天气情况影响,美国国家航天航空局和太空探索技术公司(Spa 大学校门要全面敞开吗?开放程度如何把握? 近日,北京大学李植副教授发表文章《从今天与保安比赛跑步说起——北京大学的门卫 碳中和目标倒逼产业结构与能源结构向绿色低碳方向转变。作为一种具备诸多优点的清洁能源,氢能迎来重要的发展机遇期, “这些小胶质细胞在tau蛋白病变有效地扩散到下一个细胞之前就开始吸收并降解tau蛋白。没有tau病理学,就不会有神经退 中新网1月1日电 据国家地震台网官方微博消息,中国地震台网自动测定:1月1日15时10分在日本本州西岸近海附近(北纬37.98度,东 。

本文链接:通用智能体落地,如何破解“实习生困境”http://www.sushuapos.com/show-11-29309-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 罗丹:一位青年科学家的“闯劲”与“定力”

下一篇: 卓越工程师培养为何成为中国式现代化进程中的关键变量

热门资讯

推荐资讯

  • 上海有机所在II型聚酮合酶研究方面获进展

    11月6日,中国科学院上海有机化学研究所刘文课题组在《自然-合成》(Nature Synthesis)上,在线发表了题为Analysis of siderochelin biosynthesis reveals that a type II p

  • 学前教育步入“有专门法可依”新阶段

      本报北京11月11日讯(记者 林焕新)11月8日,十四届全国人大常委会第十二次会议表决通过了《中华人民共和国学前教育法》(以下简称“学前教育法”),标志着学前教育步入“有专门法

  • 中意大学校长对话会在京举行

      为落实元首共识、深化教育交流合作,11月9日,中意大学校长对话会在北京大学举行。教育部部长怀进鹏出席对话会并致辞。他表示,中方坚持教育开放发展,愿同包括意大利在内的世

  • 陈杰出席2024年全球教育会议

      当地时间10月31日至11月1日,2024年全球教育会议在巴西福塔莱萨召开。会议围绕“科学、技术、创新与数字变革”和“高等教育的公平机会、质量和流动性”等议题进行讨论。

  • 联合国教科文组织正式启动新一轮创意城市网络申报工作

      日前,联合国教科文组织在其官网正式发布消息,启动新一轮创意城市网络申报工作。项目申报向所有联合国教科文组织会员国开放,报名截止时间为2025年1月31日。国内申报城市须

  • 全力促进毕业生高质量充分就业

      本报北京11月14日讯(记者 高毅哲)今天,教育部、人力资源社会保障部召开2025届全国普通高校毕业生就业创业工作会议,以习近平新时代中国特色社会主

  • 不断强化高等教育对中国式现代化的战略性支撑作用

      本报北京11月6日讯(记者 林焕新)今天,教育部党组书记、部长怀进鹏调研中国石油大学(北京)、中央财经大学,了解学校服务国家战略、培养拔尖创新人才、

  • 推进学前教育依法治理

    近年来,学前教育得到快速发展,但仍是国民教育体系的薄弱环节,需要通过立法,贯彻落实党中央、国务院决策部署,破解突出问题,为学前教育高质量发展提供法治

  • 强化幼儿园监管 规范幼儿园发展

    《中华人民共和国学前教育法》(以下简称学前教育法)第七章详细规定了各级政府及有关部门对学前教育在安全管理、收费管理、经费预算、督导问责、质量

  • 福州:局长陪餐,让家长放心、师生满意

    中国教育报-中国教育新闻网讯(记者 黄星)日前,福建省福州市委教育工委书记、市教育局党组书记、局长游昕一行赴闽侯第一中学开展食品安全专项督导工作

  • 人工智能赋能思政课的路径选择:基于大学生接受心理机制研究

    ◎摘 要 加大对学生的认知规律和接受特点的研究,发挥学生主体性作用,对推动思政课建设内涵式发展,不断提高思政课的针对性和吸引力具有重要意义。思

  • 南京工业职业技术大学国际合作开展情况介绍

    习近平总书记在全国教育大会上强调,要深入推动教育对外开放,统筹“引进来”和“走出去”,不断提升我国教育的国际影响力、竞争力和话语权。南京工业职

  • 日榜
  • 周榜
  • 月榜