摘要
本发明属于离线强化学习,具体涉及结合广义优势估计和模态分解交互的离线强化学习方法。为解决基于TransFormer的离线强化学习方法中轨迹拼接能力不足,以及轨迹中多模态信息的模态内交互和模态间交互的问题,本发明采用广义优势估计改善模型在离线数据集中的轨迹拼接能力,模态分解交互模块利用编码器‑解码器结构,编码器利用基于ConvFormer的模态内部交互,有效处理单一模态中的时序信息。与此相对,基于TransFormer的模态间交互则捕捉状态与动作之间的相关性,增强了模型对状态和动作序列的表征能力。解码器进一步使用卷积和交叉注意机制融合多模态信息,从而实现更准确的动作预测。
技术关键词
强化学习方法
注意力
离线
前馈神经网络
广义
融合多模态信息
强化学习模型
序列
编码器
轨迹
近似动态规划
数据
卷积模块
解码器结构
参数
滤波器系数
系统为您推荐了相关专利信息
运动状态监测
震动马达
运动传感器
电极阵列
移动终端
识别方法
校准
眼球运动轨迹
空间分布特征
融合特征
配电控制设备
分布式故障检测
电力运行数据
谐波相位
决策树模型
样本生成方法
掩膜
双模态
图像生成网络
解码架构