摘要
本申请公开了一种策略获取方法、装置、设备、存储介质及程序产品,属于强化学习技术领域。方法包括:将第一环境状态输入收敛的目标模型,得到第一环境状态对应的第一动作策略;其中,目标模型包括噪声检测模型和第一强化学习模型;噪声检测模型用于检测第一环境状态中的噪声;第一强化学习模型基于第一环境状态和噪声检测模型的噪声检测结果进行动作策略更新;将第一环境状态输入收敛的第二强化学习模型,得到第一环境状态对应的第二动作策略;根据第一动作策略和第二动作策略,确定第一环境状态对应的目标动作策略。本申请可以提高策略获取的可靠性。
技术关键词
动作策略
强化学习模型
策略获取方法
训练样本集
计算机程序指令
计算机程序产品
偏差
强化学习技术
噪声标签
可读存储介质
处理器
电子设备
信号
模块
网络
系统为您推荐了相关专利信息
资产
加密算法
部署智能合约
计算机程序指令
资源
人脸特征向量
人脸特征数据
多模态
行人重识别
计算机程序指令