摘要
本公开提供了一种用于强化学习的模型训练方法、用于强化学习的模型训练装置、电子设备及计算机可读存储介质,属于人工智能技术领域。该方法包括:获取样本库;样本库至少包括多个连续的样本状态信息;从样本库获取第一样本状态信息并输入第一预测模型,得到第一样本预测值,根据第一样本预测值和第一样本状态信息对应的标签信息确定第一损失值;从样本库获取第二样本状态信息和/或第三样本状态信息,根据第二样本状态信息和/或第三样本状态信息确定第二损失值;基于第一损失值和第二损失值更新第一预测模型的参数。本公开可以提高强化学习的模型训练的准确性和有效性。
技术关键词
样本
模型训练方法
聚类
模型训练装置
记忆
参数更新模块
电子设备
可读存储介质
人工智能技术
标签
处理器
计算机
有效性
指令
存储器
系统为您推荐了相关专利信息
体构建方法
燃气管
异常点
分析数据特征
数字孪生
睡眠呼吸检测系统
睡眠呼吸检测方法
呼吸暂停事件
检测云平台
光纤传感器
网络安全数据
网络安全知识图谱
网络安全事件
分词
生成知识图谱