摘要
本申请实施例提供了一种基于强化学习的模型训练方法、装置、设备及存储介质。包括:获取样本训练数据集;针对样本训练数据中的第一样本状态子数据,通过预设强化学习模型生成第一动作子数据并计算第一预测奖励值,以及通过视觉语言模型生成第二动作子数据并计算第二预测奖励值;确定目标第一动作子数据和目标第二动作子数据并构建第一正则化项,基于第一正则化项与策略网络子损失生成第一目标损失;基于预测状态子数据得到确定性决策置信度以构建第二正则化项,并基于第二正则化项与熵损失项生成第二目标损失;根据第一目标损失和第二目标损失对预设强化学习模型的参数进行调节,得到目标强化学习模型。以此,能够提高训练的效率和模型的性能。
技术关键词
强化学习模型
样本
模型训练方法
状态图像数据
视觉
网络
决策
策略
阶段
模型训练装置
计算机设备
模块
处理器
参数
可读存储介质
存储器
系统为您推荐了相关专利信息
组学特征
训练特征
影像
状态检测方法
模型训练方法
搜索意图
生成模型训练方法
动态时间窗口
答案
词典
地震数据处理方法
峰值信噪比
训练集
策略
噪声样本