最近,像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型(Large Reasoning Models,LRMs)
通过加长「思考链」(Chain-of-Thought,CoT)在推理任务上表现惊艳。
但随之而来的是一个日益严重的问题:它们太能「说」了!生成的推理过程往往充斥着冗余信息(比如反复定义)、
对简单问题过度分析,以及对难题的探索浅尝辄止。
正如 Qwen2.5-32B-Instruct 回答「3 的平方是多少」只需要 30 个 token,而它的 LRM 版本 QwQ-32B 却能滔滔不绝地输出 1248 个 token 来反复验证。
这种低效不仅拖慢了模型训练和推理速度,也给实际应用(如智能体系统)带来了巨大挑战。莎士比亚说:「简洁是智慧的灵魂(Brevity is the soul of wit)」。
在 LRM 时代,我们提出「效率是智慧的精髓(Efficiency is the essence of intelligence)」。
一个真正智能的模型,应该懂得何时停止不必要的思考,明智地分配计算资源(token),优化求解路径,用优雅的精确性平衡成本与性能。
上海AI Lab联合 9 家单位,总结超过 250 篇相关论文,深入探讨了当前提升 LRMs 思考效率的研究,聚焦于这个新范式下的独特挑战。
图表 1:综述的主要结构,分类章节,以及未来重要的研究方向
在深入探讨方法之前,我们先明确什么是思考效率,看看 LRMs 通常在哪些方面表现「低效」,以及提升思考效率面临哪些独特挑战。
我们从任务分布的角度定义推理效率。对于一个 LRM 模型,其在任务分布上的思考效率定义为:
尽管长 CoT 有效,但 LRMs 常常表现出以下低效模式:
提升 LRM 的推理效率面临一些新的、独特的挑战:
这使得精确判断哪些部分可以压缩或删减变得困难,在不牺牲性能的前提下追求简洁成为一个微妙的平衡问题。
如何让模型「思考得恰到好处」,既不太浅以致遗漏逻辑,也不太深以致浪费计算,仍是一个悬而未决的问题。
开发能够处理长序列的新架构或高效近似方法至关重要。
这一部分聚焦于在模型推理(生成答案)阶段提升效率的方法,主要有四类策略:
最直接的方法是明确限制计算资源。
借鉴人类思维的双系统理论(System1 快直觉,System2 慢审慎)。
在不同复杂度的模型间分配计算任务。
提升 Best-of-N、Self-Consistency 等并行生成方法的效率。
监督微调(SFT)是让模型学习遵循特定指令的常用方法。这一部分探讨如何通过 SFT 让 LRM 学会更高效地推理,主要分为两类:
强化学习(Reinforcement Learning,RL)已被证明能有效引导 LLM 发展深度推理能力(如 DeepSeek-R1)。
这自然引出了一个想法:能否用 RL 更直接、更直观地提升推理效率?目前的研究主要围绕如何通过 RL 策略减少或控制推理轨迹的 token 使用,同时保持性能。
1. 设定预算:
基于任务难度(通过成功率等指标量化)设定 token 长度预算,并据此设计奖励。
在 prompt 中明确给出目标长度指令,并惩罚偏离目标的行为。
2. 归一化奖励:
将长度奖励与基线模型(通过预采样得到)的长度进行比较和归一化。
在每个 prompt 内部进行长度惩罚归一化。
使用相对于同问题下生成的最长/最短答案的归一化长度因子作为奖励。
3. 设计特定函数:
使用如余弦函数形式的奖励,在鼓励有效推理步骤的同时,对过度增长的长度施加惩罚。
这一部分着眼于在模型预训练阶段就融入高效设计的思路,旨在从根本上提升计算效率和性能。主要有三条路线:
针对 LRM 高效思考的研究尚处早期,未来有许多激动人心的方向值得探索:
可靠:长链更容易积累错误(幻觉),且 CoT 过程本身可能与模型内部实际「思考」不符(CoT 不忠实问题)。
缺乏专门用于衡量 LRM 过度推理倾向的基准。
文章来自于微信公众号 “机器之心”,作者 :机器之心
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0