一种基于状态语义表征学习内在奖励的强化学习方法

正文

推荐专利

申请号：CN202411366573

申请日期：2024-09-29

公开号：CN118886476B

公开日期：2024-11-29

类型：发明专利

摘要

本发明公开了一种基于状态语义表征学习内在奖励的强化学习方法，属于深度学习与机器学习领域，包括以下步骤：首先，提取强化学习算法与环境交互当前步的视觉状态图像描述；其次，基于视觉状态图像描述构建基于图像信息的内在奖励值1；然后将视觉状态图像描述采用预训练的方法转换为视觉状态图像文本表征，基于视觉状态图像文本表征构建基于语义信息的内在奖励值2；紧接着，对内在奖励值1和内在奖励值2进行融合获得当前步最终内在奖励值；最后，将当前步最终内在奖励值结合环境反馈值进行强化学习策略训练，获得最终的强化学习策略；本发明提供的一种基于状态语义表征学习内在奖励的强化学习方法，提升强化学习解决环境稀疏奖励的性能与效率。

技术关键词

强化学习方法强化学习策略视觉语义强化学习算法图像文本编码神经网络参数梯度方法表达式线性取向数据元素

系统为您推荐了相关专利信息

一种基于视觉识别的考场人脸识别方法及系统

人脸识别方法分块端点像素点直方图均衡化

基于监控数据的幼儿安全分析方法及系统

姿态检测模型有效性分析方法安全监控数据滑动窗口

基于大模型、知识库和工具的智能体自动配置方法及系统

自动配置方法排序模型检索项语义结构自然语言

一种金融实体与情感联合抽取方法

联合抽取方法实体多头注意力机制金融语义

一种电力调度控制中心调度人员疲劳监测系统以及方法

疲劳监测系统控制中心监测模块智能照明单元面部特征

一种基于状态语义表征学习内在奖励的强化学习方法

站点导航

APP 下载