摘要
本发明涉及一种提升模型推理效果的方法,包括以下步骤:S1:引导大模型解决数学问题,大模型通过内部知识储备解答问题,当大模型判定当前问题无法通过内部知识储备解答时,由其自主触发外部检索机制,生成检索结果;S2:依据检索结果,继续引导大模型解决数学问题;S3:循环S1和S2,直至搜索引擎调用预算耗尽,或,大模型生成包含指定答案令牌的完整解答响应;S4:构建基于强化学习的优化框架,通过策略梯度算法对大模型解题行为进行动态校正。本发明采用邻近策略优化和分组相对策略优化的优势,优化检索增强推理。
技术关键词
梯度算法
动态校正
令牌
数学
策略
答案
机制
框架
标记
包裹
序列
系统为您推荐了相关专利信息
锚索框架梁加固
装配式框架梁
边坡
历史监测数据
参数
系统上下文
深度强化学习模型
资源分配
序列
列表
融合特征
基站
多模态
系统调度方法
功率分配策略