一种基于跨模态时空联合学习的多模态视频目标识别方法

正文

推荐专利

申请号：CN202510679690

申请日期：2025-05-26

公开号：CN120236233B

公开日期：2025-08-22

类型：发明专利

摘要

本发明属于多模态数据处理技术领域，涉及一种基于跨模态时空联合学习的多模态视频目标识别方法，包括：1、数据预处理；对两种模态视频进行预处理，增强数据稳定性；2、视觉特征提取；从每帧中提取低阶视觉特征，提取特征图；3、跨模态时空联合学习网络；构建跨时空联合学习网络，提取高阶特征并实现模态间融合；4、特征融合与目标识别；经过多层跨模态自注意力计算得到融合特征；压缩融合特征为特征向量，输出分类结果；本发明通过Patch数量维度拼接和跨模态定向注意力机制，不仅保留了模态独立性，还实现了精准的时空交互，降低了计算复杂度；本发明在特征融合效率和目标识别精度上进行改进，特别是在实时性要求高的场景中表现出色。

技术关键词

跨模态识别方法融合特征视频视觉特征提取 Softmax函数分辨率注意力机制特征提取网络元素数据处理技术矩阵序列多模态坐标复杂度

系统为您推荐了相关专利信息

基于多分支的遥感图像文本跨模态检索方法及系统

跨模态检索方法共享适配器文本特征向量图像特征向量多分支

一种高效率多方协同的收货管控方法

电子签章智能管控平台管控方法预警规则高效率

一种基于元宇宙的用户交互体验优化方法及系统

特征提取模型交互特征文本视觉语义分析模型

基于空中动态目标精准识别方法及系统

精准识别方法高分辨率纹理三维运动轨迹空间分布特征动态

基于时频语义学习的多维时序识别方法、装置和设备

分词序列识别识别方法语义蒙特卡洛

一种基于跨模态时空联合学习的多模态视频目标识别方法

站点导航

APP 下载