结合广义优势估计和模态分解交互的离线强化学习方法

正文

推荐专利

申请号：CN202411694561

申请日期：2024-11-25

公开号：CN119623564A

公开日期：2025-03-14

类型：发明专利

摘要

本发明属于离线强化学习，具体涉及结合广义优势估计和模态分解交互的离线强化学习方法。为解决基于TransFormer的离线强化学习方法中轨迹拼接能力不足，以及轨迹中多模态信息的模态内交互和模态间交互的问题，本发明采用广义优势估计改善模型在离线数据集中的轨迹拼接能力，模态分解交互模块利用编码器‑解码器结构，编码器利用基于ConvFormer的模态内部交互，有效处理单一模态中的时序信息。与此相对，基于TransFormer的模态间交互则捕捉状态与动作之间的相关性，增强了模型对状态和动作序列的表征能力。解码器进一步使用卷积和交叉注意机制融合多模态信息，从而实现更准确的动作预测。

技术关键词

强化学习方法注意力离线前馈神经网络广义融合多模态信息强化学习模型序列编码器轨迹近似动态规划数据卷积模块解码器结构参数滤波器系数

系统为您推荐了相关专利信息

一种基于脑电信号的运动状态监测与反馈系统及方法

运动状态监测震动马达运动传感器电极阵列移动终端

基于人工智能的眼动校准识别方法、装置及系统

识别方法校准眼球运动轨迹空间分布特征融合特征

一种配电控制设备分布式故障检测系统及方法

配电控制设备分布式故障检测电力运行数据谐波相位决策树模型

mRNA序列核糖体占有率的预测方法、模型训练方法及相关装置

序列注意力机制样本多模态数据库编码器

一种基于掩膜修复的电路板双模态缺陷样本生成方法

样本生成方法掩膜双模态图像生成网络解码架构

结合广义优势估计和模态分解交互的离线强化学习方法

站点导航

APP 下载