摘要
本发明公开了一种基于强化学习的大模型工具调用分层动态优化方法及系统,其中,本发明提供了一种基于分层解耦架构的模型训练方式,其通过将奖励机制调整为格式+工具调用正确性奖励,并将正确性奖励分解为名称、参数和值的三级验证,以及在训练过程中动态调整格式与正确性奖励权重;如此,不仅使模型实现了从基础结构学习到复杂策略优化的渐进式训练,增强了模型的泛化能力,且还实现了训练过程的细粒度反馈,从而使模型可针对具体错误进行梯度更新,进而避免了传统技术所存在的训练效率低和模型输出准确性差的问题;由此,本方法提高了模型的泛化能力、训练效率以及输出准确性,从而非常适用于大规模应用与推广。
技术关键词
数据
动态优化方法
大语言模型
格式
强化学习算法
参数
动态优化系统
分层
存储计算机程序
收发器
计算机程序产品
模型更新
基础结构
字段
模块
存储器
处理器
电子设备
指令
系统为您推荐了相关专利信息
细胞图像分类方法
超参数
算法
进化策略
分类准确率
健康状态评估方法
储能系统
焦点
动态
健康状态评估技术
误码纠错方法
误码纠错系统
图样
错误码
生成多项式
集成方法
动态时间规整算法
仪表
分布式消息队列
统一数据模型