摘要
本发明属于大语言模型推理能力增强领域,公开一种基于错误驱动学习的大语言模型推理增强方法。训练数学问题回答模型;收集由数学问题回答模型生成出的推理过程及答案,保留结果中错误的内容;错误强化微调错误曝光模型;通过对错误曝光模型生成出的错解题解过程,提升数学问题回答模型在推理任务上的表现以及规避错误解决方案的能力;推理阶段错误避免预测;使用由错误曝光模型生成的多样化错题,通过特定的提示指令帮助模型在求解过程中尽可能规避错误。本发明所提出的错误驱动提升大语言模型推理能力的方法,在数学推理任务方面取得了最先进的效果,超过了包括LEMA,Wrong‑of‑Thought在内的多个增强大模型推理能力的基线。
技术关键词
数学
答案
大语言模型
优化训练数据
微调方法
三元组
代表
阶段
基线
指令
参数
基座
基础