近年来,大模型(Large Language Models, LLMs)在数学、编程等复杂任务上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表现尤为亮眼。但它们为何如此强大呢? 核心在于长链思维(Long Chain-of-Thought, Long CoT)—— 通过更深入的推理、更广泛的探索,以及更强的自我反思,使大模型能够高效解决复杂问题。
然而,长思维链仍然缺乏系统性研究,甚至面临诸多未解之谜:
填补研究空白,建立统一视角:最全长思维链综述,来了!
图 2:长思维链和思维链之间的差异具有三个关键特征:深度的推理,适当的反思和广泛的探索。此外,长思维链整合了所有这些特征以实现更好的逻辑效果。
在大模型推理演化的过程中,如图 2 所示,长思维链(Long CoT)与短思维链(Short CoT)代表了两种截然不同的推理范式。短思维链以浅层、线性的推理方式快速得出结论,逻辑路径短,探索性低,适用于结构清晰、解答明确的问题。而长思维链则强调深度推理、广泛探索和可行性反思,允许模型在更复杂的逻辑网络中展开深入分析,发现隐藏关系,并优化推理路径。
短思维链的推理方式逻辑节点数量有限,主要依赖顺序推理,且几乎不会回溯或检验先前的推理路径。在数学、编程等需要逻辑推导的任务中,短思维链往往难以应对复杂问题,而长思维链则可以通过扩展推理深度和增加探索空间,提高解题能力。形式上,长思维链放宽了传统 短思维链在推理节点数量、并行探索能力以及回溯调整方面的限制,使得模型能够在更大的问题空间中寻找最佳解。
深度推理(Deep Reasoning):短思维链只能处理有限数量的逻辑节点,适用于较简单的问题,而 长思维链允许推理路径大幅扩展,涵盖更多层次的逻辑关系,从而解决复杂的多步推理问题。数学推理、符号逻辑推导等领域对这一能力有极高需求。
广泛探索(Extensive Exploration):短思维链仅限于固定的逻辑路径,往往导致推理过于单一,而 长思维链通过拓展逻辑分支、并行探索多个可能解,能够大幅提高推理的稳健性和准确度。这种能力在具有多种可能解或需要跨领域推理的任务中尤为重要。
可行性反思(Feasible Reflection):短思维链的推理过程不可回溯,一旦出错很难修正,而 长思维链能够在推理过程中反思、校验先前的逻辑步骤,结合反馈机制优化推理路径,减少推理错误,提升整体推理质量。
图 3:对长思维链外部行为六个经典现象的分析:(a)当前推理大模型为何会产生长思维链;(b)当前长思维链系统的推理边界及其局限性;(c)当超出推理大模型的推理边界时,过度思考可能导致的性能衰退;(d)测试阶段扩展方法的应用及其扩展规律与局限性;(e)使用过程中的奖励模型与结果奖励模型效果对比;(f)“顿悟” 时刻的探索及其潜在原因。
研究表明,长思维链通过多种方式增强了推理大模型的推理能力,主要表现为六大核心推理现象:
深度推理(Deep Reasoning)是长思维链的核心能力,它决定了推理大模型在处理复杂推理任务时的表现。然而,缺乏足够的推理深度会导致模型在高难度任务上的性能下降。当前的研究主要从推理格式(Deep Reasoning Format)和推理学习(Deep Reasoning Learning)两方面入手,通过优化推理结构和训练方法,使推理大模型能够更高效地执行深度推理。
5.1 深度推理格式:优化推理结构的多种路径
长思维链的推理能力依赖于三种主要的推理格式:
图 4:深度推理格式主要分为三类:自然语言、结构化语言与潜在空间推理(进一步细分为基于 token、向量和管理器驱动的潜在推理)
5.2 深度推理学习:优化推理能力的训练方法
提升推理大模型的深度推理能力,需要结合模仿学习(Imitation Learning)和自学习(Self-Learning)两种方法,使模型能够在复杂推理任务中更好地泛化和优化。
图 5:深度推理学习的不同策略,包括:(a) 深度推理模仿学习,即模仿来自高级深度推理系统(如高级推理大模型、MCTS 等)产生的数据,通过监督微调训练推理模型;(b) 深度推理自我学习,即通过隐式奖励驱动的基于偏好的强化学习,实现推理模型的自我改进与优化。
5.2.1 深度推理模仿(Imitation Learning)
模仿学习通过监督微调(SFT),让模型从人类、先进推理大模型或扩展采样策略中学习推理模式:
5.2.2 深度推理自学习(Self-Learning)
自学习允许模型自主优化推理过程,主要采用强化学习(RL)和树搜索(MCTS)方法:
在 长思维链推理中,可行性反思(Feasible Reflection)是确保逻辑链条准确性的重要机制,它涉及对推理过程的反馈(Feedback)和改进(Refinement)。反馈机制提供评估,帮助模型识别和修正错误,而改进机制则允许模型基于反馈进行调整,以提高推理质量。
图 6:可行反思的反馈能力框架包括总体反馈与过程反馈两种形式。总体反馈包括:结果奖励模型(以数值形式进行反馈、基于规则的正确性判断机制,以及基于推理大模型的总体评价模型。过程反馈则包含:以数值形式提供反馈的过程奖励模型,以及基于推理大模型的逐步评价模型。此外,过程反馈还可结合操作系统环境、真实环境或图形界面环境等进行交互式评估。
6.1 反馈(Feedback):从整体到过程的优化
反馈是长思维链推理优化的关键环节,它可以用于验证逻辑正确性、提高模型稳定性,并减少错误累积。
6.1.1 整体反馈(Overall Feedback):全局优化推理质量
整体反馈关注推理链条的最终结果,而非每一步的细节。它常用于强化学习(RL)中的奖励建模,以提升推理大模型的推理能力,主要包括:
6.1.2 过程反馈(Process Feedback):细化推理步骤
过程反馈关注推理的中间步骤,通常可以增强强化学习(RL)或蒙特卡洛树搜索(MCTS)的优化,主要包括:
6.1.3 混合反馈(Hybrid Feedback)
由于整体反馈和过程反馈各具优势,研究者提出了结合两者的混合方法,进行双重反馈优化,提高推理连贯性。
6.2 改进(Refinement):优化推理路径的关键手段
在反馈机制的基础上,改进(Refinement)进一步帮助推理大模型纠正错误、优化推理路径,从而提升推理能力。现有研究主要采用三种方法:
图 7:细化方法主要分为三类:(a) 基于提示的改进生成,通过构造合适的提示策略,引导模型进行可行的反思过程并产出修正答案;(b) 基于监督微调的改进模仿,利用来自高级推理大模型的细化示例,通过监督学习对模型进行微调;(c) 基于强化学习的改进学习,模型根据反馈信号(如奖励)对自身生成的修正进行优化,逐步学会自我改进推理与输出。
探索能力是 长思维链推理的关键,使推理大模型能够在复杂问题空间中进行策略性分支和迭代优化。研究表明,假设分支和基于反思的错误回溯是突破线性推理路径局限的重要方法。当前研究主要关注探索规模化、内部探索、外部探索,以提高模型的推理质量和适应性。
图 8:推理测试阶段的两种常见扩展策略示意图,包括:(a) 纵向扩展:通过延长模型的长链式思维过程以增强推理能力,但受限于大语言模型的推理边界,最终可能难以突破性能瓶颈。(b) 横向扩展:通过增加采样次数生成多个推理结果,并结合自一致性、自验证等机制进行结果验证与整合,从而提升输出的整体质量,但其性能上限仍不超过 Pass@k 指标所代表的理论最优水平。
7.1 探索规模化(Exploration Scaling):优化推理长度与广度
探索规模化旨在扩展推理大模型的推理能力,提高任务求解效率。
7.1.1 垂直扩展(Vertical Scaling)
通过延长推理路径增加推理深度,如推理时扩展(Test-time Scaling)优化计算资源以提升推理效果。此外,隐空间扩展(Latent Space Scaling)在注意力跨度限制下,利用递归计算增强推理深度。
7.1.2 并行扩展(Parallel Scaling)
采用多次推理采样结合验证机制,以筛选最优推理路径。
探索验证优化方面,最早地,自一致性(Self-Consistency)方法就可通过多轮推理采样及多数投票机制优化答案选择,而一些工作通过进一步引入细粒度自一致性(Fine-grained Self-Consistency)结合逐步验证机制(Step-wise Verification),有效减少推理验证错误的累积。
探索路径优化方面,短路径多样化采样(Diverse Short-path Sampling)方法通过优化采样温度和跨语言推理拓展,提高探索的多样性和泛化能力。
图 9:用于优化内部探索的两类主要方法:(a) 强化学习策略:通过参考模型与价值模型辅助,结合奖励模型进行优势聚合,从而提升策略模型的输出质量,实现策略优化。(b) 奖励策略:根据模型输出设计奖励机制,包括规则驱动奖励,例如使用正则匹配或测试用例打分;以及模型驱动奖励,基于如和 PRM 等评价模型生成奖励,以提升强化学习性能。
7.2 内部自主探索(Internal Exploration):强化学习驱动的推理优化
内部自主探索强调通过强化学习(Reinforcement Learning, RL)和奖励策略(Reward Strategies),使推理大模型能够自主优化推理策略,提高泛化能力和探索深度。
7.2.1 强化学习策略
主要分为:
7.2.2 奖励策略
奖励策略的优化是强化学习中的关键,包括正确性奖励(Correctness Rewarding)、格式奖励(Format Rewarding)和规模奖励(Scaling Rewarding)。正确性奖励通过提高答案准确性引导模型优化推理路径,格式奖励确保推理过程符合规范,而规模奖励则鼓励更长的推理链条,但研究表明过度扩展可能导致低效推理。
为了展示当前主流奖励策略在各类基准测试中的表现,表 5 总结了不同方法在 GSM8K、AIME 2024、MATH500 等数据集上的性能对比,能够直观体现策略设计对推理能力的影响。
表 5:不同内部探索方法在多个基准测试上的性能表现,主要按 AIME 2024 排序。“-” 表示论文未报告该得分。
7.3 外部引导探索(External Exploration):结合外部系统增强推理能力
外部引导探索结合人类或外部系统,提高推理大模型的探索能力和推理质量。
7.3.1 人类驱动探索(Human-driven Exploration)
依赖于预设的推理结构,如 Tree-of-Thought(ToT)采用树状推理结构增强复杂任务求解能力,而 Forest-of-Thought(FoT)结合多棵推理树提高探索的全面性。
7.3.2 模型驱动探索(Model-driven Exploration)
通过自适应搜索结构和反馈机制进行优化,探索路径优化方法包括束搜索(Beam Search)、A* 搜索(A* Search)和蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS),提升搜索效率和推理质量。
图 11:外部探索策略根据过程管理角色的不同可分为两类:(a) 人类驱动的探索:由人工设定的提示词与固定流程控制推理过程,探索结构通常为线性、树状或图状,但路径固定、缺乏适应性。(b) 模型驱动的探索:由模型主导进行探索,具备反思与自适应搜索能力,采用动态结构并结合 Beam、A*、MCTS 等搜索逻辑与多种反馈机制(如 PRM、Critic、Advantage、Q-Value、Verifier)来实现更灵活且高效的深度推理。
长思维链正在不断拓展其应用边界,推动多模态、跨语言、智能体、效率优化、知识增强及安全性方面的研究发展。未来的探索方向主要涵盖以下六个关键领域:
图 11:长思维链的未来发展方向包括:(a) 多模态长思维链:融合多种模态的输入与输出(如图像、文字、公式等),增强推理表现力与适应性;(b) 多语言长思维链:支持跨语言推理与应用,提升模型的多语种通用性;(c) 具身智能与代理型长思维链:通过引入具身交互机制,提升模型在真实环境中的推理与行动能力;(d) 高效长思维链:优化推理路径与效率,加快思维链生成速度;(e) 知识增强型长思维链:引入外部知识库丰富推理过程,提高准确性与解释性;(f) 安全性保障的长思维链:强化推理过程中的可靠性,避免产生有害或误导性的输出,确保伦理合规。
8.1 多模态长思维链(Multimodal Long CoT)
多模态推理的研究聚焦于将长思维链扩展至图像、视频、音频等多种数据模态,以提升模型对复杂任务的理解和推理能力。研究方向主要包括:
主要挑战包括如何有效融合视觉信息辅助逻辑推理,以及如何优化长思维链的推理长度和测试时扩展能力。
8.2 多语言长思维链(Multilingual Long CoT)
尽管推理大模型在英语领域取得了显著进展,但要实现真正的通用智能,多语言推理能力仍需进一步增强。当前研究主要集中在:
未来挑战包括跨语言知识迁移及低资源语言的推理能力优化,以确保多语言推理在不同文化背景下的一致性。
8.3 长思维链助力智能体与具身智能(Long CoT for Agentic & Embodied AI)
智能体与具身智能系统不仅仅需要通过长思维链进行任务推理,还需要在动态环境中通过不断与环境交互,逐步调整和优化长思维链,修正推理路径并实现有效的目标导向行为。当前的研究方向主要集中在以下几个方面:
主要挑战包括在不确定环境中保持决策稳健性,以及在多智能体协作过程中优化推理效率。
8.4 高效长思维链(Efficient Long CoT)
长思维链的深度、探索性和反思机制往往导致推理过程冗长,因此优化推理速度成为关键问题。当前研究方向包括:
未来挑战包括如何构建自适应推理策略,使模型能够根据任务复杂性动态调整推理深度,并探索更高效的推理格式,如多模态或隐变量推理。
8.5 知识增强长思维链(Knowledge-Augmented Long CoT)
尽管推理大模型具有强大的推理能力,但在某些专业领域仍然存在知识空白,因此结合外部知识库成为关键研究方向:
主要挑战在于如何有效地将更多外部知识融入到长思维链的推理过程,并开发可扩展的知识存储与检索机制,以确保实时更新和知识一致性。
8.6 长思维链的安全性(Safety in Long CoT)
长思维链虽然提升了模型的推理能力,但也增加了潜在的安全风险,例如误导性信息和有害内容的生成。当前研究主要关注:
未来挑战包括如何平衡推理能力与安全性,防止长思维链导致的认知过载,同时确保推理的可解释性和可控性,以应对潜在的对抗性攻击。
本文系统回顾了长思维链在推理大模型中的核心作用,梳理了其从提出到发展的关键脉络。该论文通过 900 篇参考文献,构建了一个贯穿理论与实践的系统性框架,首次清晰地区分长思维链与短思维链在推理结构、思维能力与反馈机制上的本质差异,提出 “深度推理、广泛探索、可行反思” 三大核心能力模型,并据此解析了六大关键推理现象(如推理边界、过度思考、顿悟时刻等),阐释其底层机制与行为表现。
更重要的是,该论文不仅仅停留在现象描述,而是进一步展开了方法论总结,全面整理了当前主流的长思维链优化策略,包括基于格式设计的深度推理、基于模仿与自学习的能力提升、基于反馈与奖励的过程细化、基于强化学习与外部引导的探索机制等,并展望了多模态、跨语言、智能体交互、效率优化、知识增强与安全保障等未来研究方向。
文章来自于“机器之心”,作者“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0