策略获取方法、装置、设备、存储介质及程序产品

AITNT
正文
推荐专利
策略获取方法、装置、设备、存储介质及程序产品
申请号:CN202510316498
申请日期:2025-03-18
公开号:CN120258171A
公开日期:2025-07-04
类型:发明专利
摘要
本申请公开了一种策略获取方法、装置、设备、存储介质及程序产品,属于强化学习技术领域。方法包括:将第一环境状态输入收敛的目标模型,得到第一环境状态对应的第一动作策略;其中,目标模型包括噪声检测模型和第一强化学习模型;噪声检测模型用于检测第一环境状态中的噪声;第一强化学习模型基于第一环境状态和噪声检测模型的噪声检测结果进行动作策略更新;将第一环境状态输入收敛的第二强化学习模型,得到第一环境状态对应的第二动作策略;根据第一动作策略和第二动作策略,确定第一环境状态对应的目标动作策略。本申请可以提高策略获取的可靠性。
技术关键词
动作策略 强化学习模型 策略获取方法 训练样本集 计算机程序指令 计算机程序产品 偏差 强化学习技术 噪声标签 可读存储介质 处理器 电子设备 信号 模块 网络
系统为您推荐了相关专利信息
1
铁路站场排水设施网络系统布设方法、存储介质及设备
排水设施 纵向排水槽 网络系统 布设方法 路基
2
用于将医疗数据资源转化为数据资产的方法及系统
资产 加密算法 部署智能合约 计算机程序指令 资源
3
一种用于党参黄芪饮品生产车间的智能监测方法及系统
黄芪饮品 智能监测方法 指数 党参 终点
4
光伏发电功率预测方法及相关设备
光伏电站 气象 数据 预测误差 时间序列分析方法
5
基于迁移学习的多模态ReID检测方法、装置、介质及设备
人脸特征向量 人脸特征数据 多模态 行人重识别 计算机程序指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号