摘要
本发明涉及人工智能与智能决策技术领域,公开了一种基于世界模型的增强强化学习方法。其中,该方法包括:S100,智能体从环境中接收当前时刻环境状态,并将当前时刻决策与当前时刻环境状态进行融合,生成当前时刻表征向量;S102,智能体将当前时刻表征向量输入到世界模型中;S104,世界模型基于所输入的当前时刻表征向量预测下一时刻的环境状态以及当前时刻的奖励,并将预测的下一时刻的环境状态以及当前时刻的奖励反馈至智能体;S106,智能体根据预测的下一时刻的环境状态以及当前时刻的奖励生成下一时刻的决策,转至步骤S100。由此,可以通过构建环境动力学的模型(世界模型),显著提高强化学习算法在复杂环境中的样本效率和策略优化能力。
技术关键词
强化学习方法
强化学习算法
仿真环境
智能决策技术
深度Q网络
深度神经网络
预测误差
策略
变量
样本
系统为您推荐了相关专利信息
航天嵌入式软件
虚拟仿真平台
系统级
虚拟仿真环境
分布式仿真
深度强化学习模型
混合整数规划模型
深度Q网络
策略
资源调度方法
多智能体动态
工作状态数据
巡检方法
巡检路径
电力巡检