推理模型：“慢思考”让决策更周全

发布时间: 2025-02-18 09:49:23 来源：科技日报

观看：128

2025年，“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1，到深度求索公司上线DeepSeek-R1推理模型，都将“推理模型”推到聚光灯下。

多数大语言模型具备一定推理能力，但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧，如演绎推理、归纳推理、类比推理等，来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说，在人工智能大模型不断迭代升级的浪潮中，推理模型以创新的技术为行业发展注入新活力，也让人们对人工智能未来发展有了更大想象空间。

推理模仿人类“慢思考”

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来，过去，大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现，而是需要大模型具备强大的思维能力。

心理学家认为，人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”；另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等，对简单问题作出的快速反应，往往在人们无意识之间完成，是一种更加接近“本能”的思考方式。与之相对，“慢思考”则需要调动大脑更多资源，遵循特定思维逻辑，对问题进行抽丝剥茧式分析研究，进而作出更加理性周全的决策。

作为人工智能的典型应用，大模型如今也有了“快”“慢”之别。

传统大语言通用模型的思维方式更像是“快思考”，其主要依靠算力对海量数据进行学习，实现对后续空白内容的快速预测，回答人类提出的各类问题，本质上是基于概率模型对可能的答案进行“猜测”。相比之下，推理大模型更有意识和逻辑，会在回答之前进行一段时间“慢思考”，依据特定思维链条，提供更全面解答。

科大讯飞研究院副院长殷兵举例说，讯飞星火X1在解答高考数学题等复杂题目时，会先将题目化繁为简，给出解题思路和步骤，呈现出全面的思考、分析和推理过程，进而给出准确的题目答案。殷兵说，推理模型更接近人类的“慢思考”方式。相较于通用大模型，推理模型在数学、医学、代码等领域，会产生更好的效果和意想不到的应用场景。

强化学习实现反思纠错

人类可以对复杂问题进行深入思考、理性分析的一大原因在于，大脑能够反思。通过对过去错误结果和正确经验的反馈学习，人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术，在一定程度上模仿了人类的反思、纠错能力。

强化学习是一种机器学习方法，它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动，并根据行动的结果接收反馈，这些反馈信号则指导智能体调整下一步策略，循环往复，不断接近最优策略。

例如，DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径，即仅根据模型输出答案的优劣等简单信息，对模型进行奖惩。这相当于在不施加任何指引的情况下，让一个刚出生不久的幼儿完全自主探索世界，并根据探索结果给予反馈，从而让幼儿在反复试错和成功中快速成长。

殷兵介绍，讯飞星火X1可以进行自我探索和反思验证，并基于答案正确与否的反馈信息进行强化训练。其中，自我评价迭代的评语模型能指出大模型存在的幻觉问题，大模型在得到评语模型的评价后可实现自我完善提升。同时，评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注，而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简，把复杂问题拆解成多个步骤进行思考推理，并进行自我反思探索。例如，它在解答高考数学题目时，不仅会实时呈现分步骤解题过程，还能对解题过程进行实时验算，反思纠正过程中的遗漏和问题，直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。

可靠算力仍是关键因素

无论是模型训练还是推理，都需要算力平台作为硬件基础。虽然在特定领域，推理模型能够在实现同等效果的情况下消耗更少算力，但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。

此前，科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”，并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前，国产算力在单卡、集群、生态等方面距国际领先水平有一定差距，全面基于国产算力平台开展模型训练，面临着不少挑战。

“讯飞星火X1的训练推理涉及多个模型的强交互，需要跨任务传输数据及权重，训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说，在这种复杂的训练模式下，影响效率的因素非常多，后训练所需的算力甚至提升了一个数量级。最终，通过与华为进行联合攻关，团队自研出训练框架并进行效率优化，实现了模型算法在国产算力上的成功适配，端到端效率大幅提升。

2025年，“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1，到深度求索公司上线DeepSeek-R1推理模型，都将“推理模型”推到聚光灯下。

多数大语言模型具备一定推理能力，但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧，如演绎推理、归纳推理、类比推理等，来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说，在人工智能大模型不断迭代升级的浪潮中，推理模型以创新的技术为行业发展注入新活力，也让人们对人工智能未来发展有了更大想象空间。

推理模仿人类“慢思考”

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来，过去，大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现，而是需要大模型具备强大的思维能力。

心理学家认为，人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”；另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等，对简单问题作出的快速反应，往往在人们无意识之间完成，是一种更加接近“本能”的思考方式。与之相对，“慢思考”则需要调动大脑更多资源，遵循特定思维逻辑，对问题进行抽丝剥茧式分析研究，进而作出更加理性周全的决策。

作为人工智能的典型应用，大模型如今也有了“快”“慢”之别。

传统大语言通用模型的思维方式更像是“快思考”，其主要依靠算力对海量数据进行学习，实现对后续空白内容的快速预测，回答人类提出的各类问题，本质上是基于概率模型对可能的答案进行“猜测”。相比之下，推理大模型更有意识和逻辑，会在回答之前进行一段时间“慢思考”，依据特定思维链条，提供更全面解答。

科大讯飞研究院副院长殷兵举例说，讯飞星火X1在解答高考数学题等复杂题目时，会先将题目化繁为简，给出解题思路和步骤，呈现出全面的思考、分析和推理过程，进而给出准确的题目答案。殷兵说，推理模型更接近人类的“慢思考”方式。相较于通用大模型，推理模型在数学、医学、代码等领域，会产生更好的效果和意想不到的应用场景。

强化学习实现反思纠错

人类可以对复杂问题进行深入思考、理性分析的一大原因在于，大脑能够反思。通过对过去错误结果和正确经验的反馈学习，人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术，在一定程度上模仿了人类的反思、纠错能力。

强化学习是一种机器学习方法，它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动，并根据行动的结果接收反馈，这些反馈信号则指导智能体调整下一步策略，循环往复，不断接近最优策略。

例如，DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径，即仅根据模型输出答案的优劣等简单信息，对模型进行奖惩。这相当于在不施加任何指引的情况下，让一个刚出生不久的幼儿完全自主探索世界，并根据探索结果给予反馈，从而让幼儿在反复试错和成功中快速成长。

殷兵介绍，讯飞星火X1可以进行自我探索和反思验证，并基于答案正确与否的反馈信息进行强化训练。其中，自我评价迭代的评语模型能指出大模型存在的幻觉问题，大模型在得到评语模型的评价后可实现自我完善提升。同时，评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注，而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简，把复杂问题拆解成多个步骤进行思考推理，并进行自我反思探索。例如，它在解答高考数学题目时，不仅会实时呈现分步骤解题过程，还能对解题过程进行实时验算，反思纠正过程中的遗漏和问题，直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。

可靠算力仍是关键因素

无论是模型训练还是推理，都需要算力平台作为硬件基础。虽然在特定领域，推理模型能够在实现同等效果的情况下消耗更少算力，但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。

此前，科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”，并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前，国产算力在单卡、集群、生态等方面距国际领先水平有一定差距，全面基于国产算力平台开展模型训练，面临着不少挑战。

“讯飞星火X1的训练推理涉及多个模型的强交互，需要跨任务传输数据及权重，训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说，在这种复杂的训练模式下，影响效率的因素非常多，后训练所需的算力甚至提升了一个数量级。最终，通过与华为进行联合攻关，团队自研出训练框架并进行效率优化，实现了模型算法在国产算力上的成功适配，端到端效率大幅提升。

记者3月20日来到广东深汕西高速公路改扩建施工现场，看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日，由茅以升科技教育基金会和广东省交通集团联合主办的全国高速记者3月17日从浙江大学获悉，该校医学院附属第二医院王良静教授团队、附属邵逸夫医院陈淑洁主任医师团队联合研究发现，一种肠道菌群产生的小分子代谢物吲哚丙酸，可以增强抗癌药物抗PD-1单抗对结 3月21日是第二十五个“世界睡眠日”，中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》（以下简称《白皮书》）。《白皮书》指出，智能床垫运用算法将内在情绪与睡眠质量相关 3月22日消息，美国司法部对iPhone提起诉讼，声称其苹果生态系统构成垄断。司法部表示，iPhone将苹果生态系统视为一种垄断，以牺牲消费者、开发者和竞争对手的利益为代价，推动公司估值的飙升。司法部还指近日，民航华东地区管理局向峰飞科技公司颁发V2000CG无人驾驶航空器系统型号合格证，这也是中国民航系统颁发的首个无人驾驶吨级电动垂直起降航空器型号合格证。航空器型号合格证取证是保障航空作为功能机时代的霸主，诺基亚手机曾经创造了巨大的辉煌，但也因错失智能手机发展机遇而“掉队”。近期，外媒Visual Capitalist统计了有史以来最畅销的15款手机型号，其中诺基亚和苹果包揽前十。今。

本文链接：推理模型：“慢思考”让决策更周全http://www.sushuapos.com/show-2-10649-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇：新装置解决石油产业抽油杆防锈难题油田小站捧回国际大奖

推理模型：“慢思考”让决策更周全

热门资讯

推荐资讯

科技最热文章