摘要
本发明提供了一种基于世界模型扩展的无监督强化学习方法与系统,属于计算机深度学习领域。所述方法获取已训练完毕的专家策略与环境交互的历史离线数据集D;构建世界模型神经网络,并基于D进行训练;再构建无监督强化学习模型,并设置初始的当前预测状态;将当前预测状态、技能向量z输入策略网络得到动作;将当前预测状态和动作输入到成熟的世界模型神经网络中,得到下一预测状态;得到完整轨迹数据后,存入回放缓冲区中;随机采样部分轨迹数据,对无监督强化学习模型进行训练;将当前环境状态和智能体的技能向量z输入成熟的无监督强化学习模型中,输出动作参数,并控制智能体执行相应动作。本发明提高了无监督强化学习的泛化能力和学习效率。
技术关键词
强化学习模型
模型训练模块
控制智能体
强化学习方法
无监督
策略
多层感知机
计算机深度学习
数据
离线
参数
缓冲模块
轨迹
强化学习系统
并行计算架构
神经网络训练
控制模块
缓冲池
系统为您推荐了相关专利信息
原始图像数据
样本
深度学习技术
特征提取网络
模型训练模块