基于OpenAI Gym和策略空间泛化的强化学习方法

正文

推荐专利

申请号：CN202410870426

申请日期：2024-07-01

公开号：CN118734930A

公开日期：2024-10-01

类型：发明专利

摘要

本发明提供一种基于OpenAI Gym和策略空间泛化的强化学习方法，包括以下步骤：步骤S1，初始化环境和模型参数；步骤S2，构建以策略作为价值函数额外输入的策略拓展价值函数；步骤S3，采用策略恢复方法或对比学习方法实现自监督策略表征学习；步骤S4，采用蒙特卡洛方法或时间差分方法进行策略拓展价值函数学习，更新策略；步骤S5，基于策略拓展价值函数与强化学习算法，在OpenAI Gym平台上进行策略寻优；步骤S6，对强化学习算法收敛时所获得的策略进行评估。本发明能够有效地提高价值函数在策略空间的泛化性，提高了强化学习方法的学习效率及其稳定性，以更好地满足实际应用中强化学习的高效率和高可靠性需求。

技术关键词

强化学习方法策略强化学习算法蒙特卡洛方法恢复方法阶段平台因子指令参数指数解码器编码器高效率标志决策轨迹样本数据

系统为您推荐了相关专利信息

基于自监督空间学习的跨模态轴承故障诊断方法

轴承故障诊断方法矩阵故障特征拉格朗日乘数法采集机械设备

基于机会联邦学习的车辆动态协同控制方法及系统

节点车辆协同控制方法协同控制系统云端

跨境贸易流程优化方法、装置、计算机设备及存储介质

贸易学习算法图谱翻译模型计算机设备

一种矿井需风量智能预测方法及系统

矿井需风量智能预测方法数据节点智能预测系统

一种基于图像识别的货物质量监测分析方法及系统

实时视频流图谱监测分析方法动态更新策略

基于OpenAI Gym和策略空间泛化的强化学习方法

站点导航

APP 下载