摘要
本公开涉及一种基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品,单智能体强化学习模型单智能体强化学习模型包括在线状态编码器、动作编码器、强化学习网络和辅助任务网络,辅助任务网络包括状态预测模型,根据目标智能体当前时间段基于针对目标智能体的观测图像而得到的状态信息和动作信息,以及当前时间段的奖赏信息,通过辅助任务网络从视觉表征的角度出发,学习目标智能体的状态表征和动作表征,通过强化学习网络为目标智能体选择最佳决策动作,并且,充分利用强化学习中时间段的时序信息,可以实现单智能体在具有挑战的以图像作为状态输入的复杂连续控制任务中的性能和样本效率提升。
技术关键词
强化学习模型
预测特征
状态编码器
动作特征
强化学习网络
时间段
动作预测模型
视觉
在线
计算机程序产品
训练装置
处理器
计算机可执行指令
电子设备
多层感知机
图像
系统为您推荐了相关专利信息
动作特征
情感分析模型
情感特征
信号处理技术
深度学习算法
路径规划方法
建筑施工现场
智能巡检
无人机
深度强化学习模型
交叉注意力机制
手术机器人
编码方法
视觉特征
信号编码器
卷积特征
滑动滤波器
局部特征提取
卷积滤波器
动态