摘要
本发明公开了一种基于状态语义表征学习内在奖励的强化学习方法,属于深度学习与机器学习领域,包括以下步骤:首先,提取强化学习算法与环境交互当前步的视觉状态图像描述;其次,基于视觉状态图像描述构建基于图像信息的内在奖励值1;然后将视觉状态图像描述采用预训练的方法转换为视觉状态图像文本表征,基于视觉状态图像文本表征构建基于语义信息的内在奖励值2;紧接着,对内在奖励值1和内在奖励值2进行融合获得当前步最终内在奖励值;最后,将当前步最终内在奖励值结合环境反馈值进行强化学习策略训练,获得最终的强化学习策略;本发明提供的一种基于状态语义表征学习内在奖励的强化学习方法,提升强化学习解决环境稀疏奖励的性能与效率。
技术关键词
强化学习方法
强化学习策略
视觉
语义
强化学习算法
图像
文本
编码
神经网络参数
梯度方法
表达式
线性
取向
数据
元素
系统为您推荐了相关专利信息
姿态检测模型
有效性
分析方法
安全监控数据
滑动窗口
自动配置方法
排序模型
检索项
语义结构
自然语言
疲劳监测系统
控制中心
监测模块
智能照明单元
面部特征