摘要
本发明提供一种基于OpenAI Gym和策略空间泛化的强化学习方法,包括以下步骤:步骤S1,初始化环境和模型参数;步骤S2,构建以策略作为价值函数额外输入的策略拓展价值函数;步骤S3,采用策略恢复方法或对比学习方法实现自监督策略表征学习;步骤S4,采用蒙特卡洛方法或时间差分方法进行策略拓展价值函数学习,更新策略;步骤S5,基于策略拓展价值函数与强化学习算法,在OpenAI Gym平台上进行策略寻优;步骤S6,对强化学习算法收敛时所获得的策略进行评估。本发明能够有效地提高价值函数在策略空间的泛化性,提高了强化学习方法的学习效率及其稳定性,以更好地满足实际应用中强化学习的高效率和高可靠性需求。
技术关键词
强化学习方法
策略
强化学习算法
蒙特卡洛方法
恢复方法
阶段
平台
因子
指令
参数
指数
解码器
编码器
高效率
标志
决策
轨迹
样本
数据
系统为您推荐了相关专利信息
轴承故障诊断方法
矩阵
故障特征
拉格朗日乘数法
采集机械设备
矿井需风量
智能预测方法
数据
节点
智能预测系统