摘要
本发明公开了一种基于偏好树的大模型推理路径验证器的设计方法、系统及装置。本发明针对大语言模型在复杂推理任务中的应用,提出了一种新型的推理路径验证器,即基于偏好树的验证器。本发明方法通过最佳优先搜索算法构建偏好树,并收集步骤级配对数据对验证器进行偏好学习训练,以解决现有验证器仅在二元标注推理路径上训练、无法充分利用中间步骤相对关系的问题。相较于传统的二元分类训练方法,此验证器通过步骤级偏好更细致地捕捉推理步骤之间的细微差别,从而更精确地评估整个推理路径。本发明方法有效提升了验证器的准确性和可靠性,特别是在算术和常识推理任务中表现优异,并可进一步用于辅助数学教学等任务。
技术关键词
大语言模型
节点
训练集
辅助数学教学
分类训练方法
数据
排序损失
设计系统
搜索算法
模块
处理器
线性
三元组
可读存储介质
存储器
代表
阶段
答案
条目
程序