一种广义回归策略优化大模型强化学习实现对话生成的方法

正文

推荐专利

申请号：CN202510956507

申请日期：2025-07-11

公开号：CN120875031A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开一种广义回归策略优化大模型强化学习实现对话生成的方法，涉及大模型及强化学习应用技术领域；包括：步骤1：选取预训练语言模型作为初始化策略网络πθ，其中θ表示模型参数集合，步骤2：收集反馈数据，其中获取对模型生成结果的偏好标注，用于定义强化学习的奖励函数，步骤3：利用反馈数据定义奖励函数；步骤4：进行经验采样与轨迹收集，并使用优势函数估计每个动作的优势值，用于模型执行对话生成，步骤5：构造GRPO目标函数，步骤6：优化更新策略参数，步骤7：动态调节超参数，进行对模型迭代训练直至收敛，步骤8：利用模型进行对话生成。

技术关键词

策略预训练语言模型广义定义超参数动态模块轨迹数据生成动作图像匹配网络多模态摘要语义语音因子指标阶段

系统为您推荐了相关专利信息

一种基于多智能体强化学习的卫星协同跟瞄运动目标方法及系统

多智能体强化学习姿态误差策略网络控制力矩

用于训练用于探测交通线标记的机器学习模型的方法、计算机程序、装置和存储介质

机器学习模型标记图像定义数据

基于曲率的动脉瘤瘤颈自动分割的方法、装置和系统

特征点医学影像数据血管模型中心线动脉瘤模型

一种适用于多种场景的多轮问答方法、装置及设备

多轮问答方法自然语言大语言模型模板数据

应用的测试方法、装置、电子设备、产品及存储介质

深度Q网络 DQN算法测试方法深度神经网络页面

一种广义回归策略优化大模型强化学习实现对话生成的方法

站点导航

APP 下载