策略获取方法、装置、设备、存储介质及程序产品

正文

推荐专利

申请号：CN202510316498

申请日期：2025-03-18

公开号：CN120258171A

公开日期：2025-07-04

类型：发明专利

摘要

本申请公开了一种策略获取方法、装置、设备、存储介质及程序产品，属于强化学习技术领域。方法包括：将第一环境状态输入收敛的目标模型，得到第一环境状态对应的第一动作策略；其中，目标模型包括噪声检测模型和第一强化学习模型；噪声检测模型用于检测第一环境状态中的噪声；第一强化学习模型基于第一环境状态和噪声检测模型的噪声检测结果进行动作策略更新；将第一环境状态输入收敛的第二强化学习模型，得到第一环境状态对应的第二动作策略；根据第一动作策略和第二动作策略，确定第一环境状态对应的目标动作策略。本申请可以提高策略获取的可靠性。

技术关键词

动作策略强化学习模型策略获取方法训练样本集计算机程序指令计算机程序产品偏差强化学习技术噪声标签可读存储介质处理器电子设备信号模块网络

系统为您推荐了相关专利信息

铁路站场排水设施网络系统布设方法、存储介质及设备

排水设施纵向排水槽网络系统布设方法路基

用于将医疗数据资源转化为数据资产的方法及系统

资产加密算法部署智能合约计算机程序指令资源

一种用于党参黄芪饮品生产车间的智能监测方法及系统

黄芪饮品智能监测方法指数党参终点

光伏发电功率预测方法及相关设备

光伏电站气象数据预测误差时间序列分析方法

基于迁移学习的多模态ReID检测方法、装置、介质及设备

人脸特征向量人脸特征数据多模态行人重识别计算机程序指令

策略获取方法、装置、设备、存储介质及程序产品

站点导航

APP 下载