一种广义回归策略优化大模型强化学习实现对话生成的方法

AITNT
正文
推荐专利
一种广义回归策略优化大模型强化学习实现对话生成的方法
申请号:CN202510956507
申请日期:2025-07-11
公开号:CN120875031A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开一种广义回归策略优化大模型强化学习实现对话生成的方法,涉及大模型及强化学习应用技术领域;包括:步骤1:选取预训练语言模型作为初始化策略网络πθ,其中θ表示模型参数集合,步骤2:收集反馈数据,其中获取对模型生成结果的偏好标注,用于定义强化学习的奖励函数,步骤3:利用反馈数据定义奖励函数;步骤4:进行经验采样与轨迹收集,并使用优势函数估计每个动作的优势值,用于模型执行对话生成,步骤5:构造GRPO目标函数,步骤6:优化更新策略参数,步骤7:动态调节超参数,进行对模型迭代训练直至收敛,步骤8:利用模型进行对话生成。
技术关键词
策略 预训练语言模型 广义 定义 超参数 动态 模块 轨迹 数据 生成动作 图像匹配 网络 多模态 摘要 语义 语音 因子 指标 阶段
系统为您推荐了相关专利信息
1
一种基于多智能体强化学习的卫星协同跟瞄运动目标方法及系统
多智能体强化学习 姿态误差 策略 网络 控制力矩
2
用于训练用于探测交通线标记的机器学习模型的方法、计算机程序、装置和存储介质
机器学习模型 标记 图像 定义 数据
3
基于曲率的动脉瘤瘤颈自动分割的方法、装置和系统
特征点 医学影像数据 血管模型 中心线 动脉瘤模型
4
一种适用于多种场景的多轮问答方法、装置及设备
多轮问答方法 自然语言 大语言模型 模板 数据
5
应用的测试方法、装置、电子设备、产品及存储介质
深度Q网络 DQN算法 测试方法 深度神经网络 页面
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号