一种基于状态语义表征学习内在奖励的强化学习方法

AITNT
正文
推荐专利
一种基于状态语义表征学习内在奖励的强化学习方法
申请号:CN202411366573
申请日期:2024-09-29
公开号:CN118886476B
公开日期:2024-11-29
类型:发明专利
摘要
本发明公开了一种基于状态语义表征学习内在奖励的强化学习方法,属于深度学习与机器学习领域,包括以下步骤:首先,提取强化学习算法与环境交互当前步的视觉状态图像描述;其次,基于视觉状态图像描述构建基于图像信息的内在奖励值1;然后将视觉状态图像描述采用预训练的方法转换为视觉状态图像文本表征,基于视觉状态图像文本表征构建基于语义信息的内在奖励值2;紧接着,对内在奖励值1和内在奖励值2进行融合获得当前步最终内在奖励值;最后,将当前步最终内在奖励值结合环境反馈值进行强化学习策略训练,获得最终的强化学习策略;本发明提供的一种基于状态语义表征学习内在奖励的强化学习方法,提升强化学习解决环境稀疏奖励的性能与效率。
技术关键词
强化学习方法 强化学习策略 视觉 语义 强化学习算法 图像 文本 编码 神经网络参数 梯度方法 表达式 线性 取向 数据 元素
系统为您推荐了相关专利信息
1
一种基于视觉识别的考场人脸识别方法及系统
人脸识别方法 分块 端点 像素点 直方图均衡化
2
基于监控数据的幼儿安全分析方法及系统
姿态检测模型 有效性 分析方法 安全监控数据 滑动窗口
3
基于大模型、知识库和工具的智能体自动配置方法及系统
自动配置方法 排序模型 检索项 语义结构 自然语言
4
一种金融实体与情感联合抽取方法
联合抽取方法 实体 多头注意力机制 金融 语义
5
一种电力调度控制中心调度人员疲劳监测系统以及方法
疲劳监测系统 控制中心 监测模块 智能照明单元 面部特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号