摘要
本发明属于强化学习技术领域,具体涉及基于内外部选择状态空间的离线强化学习序列建模方法。为解决模型学习存在不准确性的问题,以及在序列建模过程中存在Transforemer计算复杂和成本高的问题,本发明依据轨迹序列元素间的Markov属性构建元素依赖表示,使用内部Mamba模块对元素依赖表示建模,捕获轨迹中的短期因果关系,并且结合状态空间模型和离线强化学习,在外部Mamba模块中利用线性复杂度的Mamba对离线强化学习轨迹序列进行建模,捕获元素间的长期时间关系。
技术关键词
建模方法
元素
轨迹
关系建模
离线
嵌入特征
输出特征
状态空间模型
模块
线性
序列特征
强化学习技术
更新模型参数
分支
阶段
代表
加载器
系统为您推荐了相关专利信息
开关控制装置
波动开关
控制组件
离线语音控制
光耦继电器
机器人动力学模型
线性化控制方法
阶段
矩阵
张拉整体结构