摘要
本发明属于多模态数据处理技术领域,涉及一种基于跨模态时空联合学习的多模态视频目标识别方法,包括:1、数据预处理;对两种模态视频进行预处理,增强数据稳定性;2、视觉特征提取;从每帧中提取低阶视觉特征,提取特征图;3、跨模态时空联合学习网络;构建跨时空联合学习网络,提取高阶特征并实现模态间融合;4、特征融合与目标识别;经过多层跨模态自注意力计算得到融合特征;压缩融合特征为特征向量,输出分类结果;本发明通过Patch数量维度拼接和跨模态定向注意力机制,不仅保留了模态独立性,还实现了精准的时空交互,降低了计算复杂度;本发明在特征融合效率和目标识别精度上进行改进,特别是在实时性要求高的场景中表现出色。
技术关键词
跨模态
识别方法
融合特征
视频
视觉特征提取
Softmax函数
分辨率
注意力机制
特征提取网络
元素
数据处理技术
矩阵
序列
多模态
坐标
复杂度
系统为您推荐了相关专利信息
跨模态检索方法
共享适配器
文本特征向量
图像特征向量
多分支
电子签章
智能管控平台
管控方法
预警规则
高效率
精准识别方法
高分辨率纹理
三维运动轨迹
空间分布特征
动态