基于强化学习的模型训练方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于强化学习的模型训练方法、装置、设备及存储介质
申请号:CN202511054283
申请日期:2025-07-30
公开号:CN120563943B
公开日期:2025-11-25
类型:发明专利
摘要
本申请实施例提供了一种基于强化学习的模型训练方法、装置、设备及存储介质。包括:获取样本训练数据集;针对样本训练数据中的第一样本状态子数据,通过预设强化学习模型生成第一动作子数据并计算第一预测奖励值,以及通过视觉语言模型生成第二动作子数据并计算第二预测奖励值;确定目标第一动作子数据和目标第二动作子数据并构建第一正则化项,基于第一正则化项与策略网络子损失生成第一目标损失;基于预测状态子数据得到确定性决策置信度以构建第二正则化项,并基于第二正则化项与熵损失项生成第二目标损失;根据第一目标损失和第二目标损失对预设强化学习模型的参数进行调节,得到目标强化学习模型。以此,能够提高训练的效率和模型的性能。
技术关键词
强化学习模型 样本 模型训练方法 状态图像数据 视觉 网络 决策 策略 阶段 模型训练装置 计算机设备 模块 处理器 参数 可读存储介质 存储器
系统为您推荐了相关专利信息
1
认知状态检测方法、模型训练方法、装置、设备和介质
组学特征 训练特征 影像 状态检测方法 模型训练方法
2
结果生成方法、生成模型训练方法、装置及存储介质
搜索意图 生成模型训练方法 动态时间窗口 答案 词典
3
一种指示灯状态的监测方法、设备、介质及程序产品
变量 指示灯 监测方法 原始观测数据 后验概率
4
对象检测模型的训练方法和装置、设备及存储介质
对象检测模型 样本 对象检测方法 编码器 标签
5
一种基于伪自监督训练策略的地震数据处理方法
地震数据处理方法 峰值信噪比 训练集 策略 噪声样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号