基于强化学习的大模型工具调用分层动态优化方法及系统

正文

推荐专利

申请号：CN202510735978

申请日期：2025-06-04

公开号：CN120598075A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了一种基于强化学习的大模型工具调用分层动态优化方法及系统，其中，本发明提供了一种基于分层解耦架构的模型训练方式，其通过将奖励机制调整为格式+工具调用正确性奖励，并将正确性奖励分解为名称、参数和值的三级验证，以及在训练过程中动态调整格式与正确性奖励权重；如此，不仅使模型实现了从基础结构学习到复杂策略优化的渐进式训练，增强了模型的泛化能力，且还实现了训练过程的细粒度反馈，从而使模型可针对具体错误进行梯度更新，进而避免了传统技术所存在的训练效率低和模型输出准确性差的问题；由此，本方法提高了模型的泛化能力、训练效率以及输出准确性，从而非常适用于大规模应用与推广。

技术关键词

数据动态优化方法大语言模型格式强化学习算法参数动态优化系统分层存储计算机程序收发器计算机程序产品模型更新基础结构字段模块存储器处理器电子设备指令

系统为您推荐了相关专利信息

基于IMGO-VGG16模型的细胞图像分类方法

细胞图像分类方法超参数算法进化策略分类准确率

一种储能系统健康状态评估方法及系统

健康状态评估方法储能系统焦点动态健康状态评估技术

一种数据测试方法、设备、介质和产品

关键词数据测试方法脚本文本 SQL语法

一种FPGA的误码纠错方法及系统

误码纠错方法误码纠错系统图样错误码生成多项式

一种计量生产设备仪表数据采集与集成方法及系统

集成方法动态时间规整算法仪表分布式消息队列统一数据模型

基于强化学习的大模型工具调用分层动态优化方法及系统

站点导航

APP 下载