基于强化学习的模型训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202511054283

申请日期：2025-07-30

公开号：CN120563943B

公开日期：2025-11-25

类型：发明专利

摘要

本申请实施例提供了一种基于强化学习的模型训练方法、装置、设备及存储介质。包括：获取样本训练数据集；针对样本训练数据中的第一样本状态子数据，通过预设强化学习模型生成第一动作子数据并计算第一预测奖励值，以及通过视觉语言模型生成第二动作子数据并计算第二预测奖励值；确定目标第一动作子数据和目标第二动作子数据并构建第一正则化项，基于第一正则化项与策略网络子损失生成第一目标损失；基于预测状态子数据得到确定性决策置信度以构建第二正则化项，并基于第二正则化项与熵损失项生成第二目标损失；根据第一目标损失和第二目标损失对预设强化学习模型的参数进行调节，得到目标强化学习模型。以此，能够提高训练的效率和模型的性能。

技术关键词

强化学习模型样本模型训练方法状态图像数据视觉网络决策策略阶段模型训练装置计算机设备模块处理器参数可读存储介质存储器

系统为您推荐了相关专利信息

认知状态检测方法、模型训练方法、装置、设备和介质

组学特征训练特征影像状态检测方法模型训练方法

结果生成方法、生成模型训练方法、装置及存储介质

搜索意图生成模型训练方法动态时间窗口答案词典

一种指示灯状态的监测方法、设备、介质及程序产品

变量指示灯监测方法原始观测数据后验概率

对象检测模型的训练方法和装置、设备及存储介质

对象检测模型样本对象检测方法编码器标签

一种基于伪自监督训练策略的地震数据处理方法

地震数据处理方法峰值信噪比训练集策略噪声样本

基于强化学习的模型训练方法、装置、设备及存储介质

站点导航

APP 下载