摘要
本发明涉及人工智能技术领域,可应用于智能体自主决策、金融科技及医疗健康等业务场景中,公开了一种多模态序列数据处理方法、装置、设备及介质,包括:获取视觉、语言文本和动作传感器数据并生成初始特征序列,提取多尺度特征层级并组合为多尺度特征金字塔集合,进行跨模态特征对齐生成多尺度对齐特征序列,执行局部与全局注意力处理生成长距离依赖特征,跨层信息交互生成综合多尺度特征,动态融合多模态信息并输入任务决策网络得到目标任务结果。本发明通过多尺度特征金字塔、跨模态对齐、注意力处理和跨层信息交互,解决多模态长序列数据中不同模态、不同尺度间关联性不足的问题,实现多模态多尺度特征的精细建模与动态融合。
技术关键词
序列数据处理方法
层级
动作传感器
多尺度特征金字塔
融合特征
动作特征
依赖特征
跨层信息交互
融合多模态信息
视觉特征
生成多尺度
跨模态
注意力
序列数据处理装置
系统为您推荐了相关专利信息
视觉导航方法
特征提取模块
注意力
智能驾驶控制系统
通道
BERT模型
判别方法
日志
超参数
训练机器学习模型
特征提取模块
融合特征提取
输入端
图像处理方法
输出端
视频识别方法
融合特征
模型训练装置
场景
训练集