基于OpenAI Gym和策略空间泛化的强化学习方法

AITNT
正文
推荐专利
基于OpenAI Gym和策略空间泛化的强化学习方法
申请号:CN202410870426
申请日期:2024-07-01
公开号:CN118734930A
公开日期:2024-10-01
类型:发明专利
摘要
本发明提供一种基于OpenAI Gym和策略空间泛化的强化学习方法,包括以下步骤:步骤S1,初始化环境和模型参数;步骤S2,构建以策略作为价值函数额外输入的策略拓展价值函数;步骤S3,采用策略恢复方法或对比学习方法实现自监督策略表征学习;步骤S4,采用蒙特卡洛方法或时间差分方法进行策略拓展价值函数学习,更新策略;步骤S5,基于策略拓展价值函数与强化学习算法,在OpenAI Gym平台上进行策略寻优;步骤S6,对强化学习算法收敛时所获得的策略进行评估。本发明能够有效地提高价值函数在策略空间的泛化性,提高了强化学习方法的学习效率及其稳定性,以更好地满足实际应用中强化学习的高效率和高可靠性需求。
技术关键词
强化学习方法 策略 强化学习算法 蒙特卡洛方法 恢复方法 阶段 平台 因子 指令 参数 指数 解码器 编码器 高效率 标志 决策 轨迹 样本 数据
系统为您推荐了相关专利信息
1
基于自监督空间学习的跨模态轴承故障诊断方法
轴承故障诊断方法 矩阵 故障特征 拉格朗日乘数法 采集机械设备
2
基于机会联邦学习的车辆动态协同控制方法及系统
节点 车辆 协同控制方法 协同控制系统 云端
3
跨境贸易流程优化方法、装置、计算机设备及存储介质
贸易 学习算法 图谱 翻译模型 计算机设备
4
一种矿井需风量智能预测方法及系统
矿井需风量 智能预测方法 数据 节点 智能预测系统
5
一种基于图像识别的货物质量监测分析方法及系统
实时视频流 图谱 监测分析方法 动态更新 策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号