基于内外部选择状态空间的离线强化学习序列建模方法

正文

推荐专利

申请号：CN202411674372

申请日期：2024-11-21

公开号：CN119623511A

公开日期：2025-03-14

类型：发明专利

摘要

本发明属于强化学习技术领域，具体涉及基于内外部选择状态空间的离线强化学习序列建模方法。为解决模型学习存在不准确性的问题，以及在序列建模过程中存在Transforemer计算复杂和成本高的问题，本发明依据轨迹序列元素间的Markov属性构建元素依赖表示，使用内部Mamba模块对元素依赖表示建模，捕获轨迹中的短期因果关系，并且结合状态空间模型和离线强化学习，在外部Mamba模块中利用线性复杂度的Mamba对离线强化学习轨迹序列进行建模，捕获元素间的长期时间关系。

技术关键词

建模方法元素轨迹关系建模离线嵌入特征输出特征状态空间模型模块线性序列特征强化学习技术更新模型参数分支阶段代表加载器

系统为您推荐了相关专利信息

一种开关控制装置

开关控制装置波动开关控制组件离线语音控制光耦继电器

基于矩阵运算两步实现数论变换的格密码方法及装置

矩阵多项式密码方法加密算法计算机程序指令

一种基于闭环控制的张拉整体机器人滚动运动方法

机器人动力学模型线性化控制方法阶段矩阵张拉整体结构

一种基于自适应六面体网格细分的软组织切割模拟方法

六面体切割模拟方法软组织模型手术器械顶点

一种遥操作中利用隐马尔可夫模型和双层贝叶斯计算期望速度的方法及系统

隐马尔可夫模型速度离线机器人关节空间运动

基于内外部选择状态空间的离线强化学习序列建模方法

站点导航

APP 下载