一种基于跨模态时空联合学习的多模态视频目标识别方法

AITNT
正文
推荐专利
一种基于跨模态时空联合学习的多模态视频目标识别方法
申请号:CN202510679690
申请日期:2025-05-26
公开号:CN120236233B
公开日期:2025-08-22
类型:发明专利
摘要
本发明属于多模态数据处理技术领域,涉及一种基于跨模态时空联合学习的多模态视频目标识别方法,包括:1、数据预处理;对两种模态视频进行预处理,增强数据稳定性;2、视觉特征提取;从每帧中提取低阶视觉特征,提取特征图;3、跨模态时空联合学习网络;构建跨时空联合学习网络,提取高阶特征并实现模态间融合;4、特征融合与目标识别;经过多层跨模态自注意力计算得到融合特征;压缩融合特征为特征向量,输出分类结果;本发明通过Patch数量维度拼接和跨模态定向注意力机制,不仅保留了模态独立性,还实现了精准的时空交互,降低了计算复杂度;本发明在特征融合效率和目标识别精度上进行改进,特别是在实时性要求高的场景中表现出色。
技术关键词
跨模态 识别方法 融合特征 视频 视觉特征提取 Softmax函数 分辨率 注意力机制 特征提取网络 元素 数据处理技术 矩阵 序列 多模态 坐标 复杂度
系统为您推荐了相关专利信息
1
基于多分支的遥感图像文本跨模态检索方法及系统
跨模态检索方法 共享适配器 文本特征向量 图像特征向量 多分支
2
一种高效率多方协同的收货管控方法
电子签章 智能管控平台 管控方法 预警规则 高效率
3
一种基于元宇宙的用户交互体验优化方法及系统
特征提取模型 交互特征 文本 视觉 语义分析模型
4
基于空中动态目标精准识别方法及系统
精准识别方法 高分辨率纹理 三维运动轨迹 空间分布特征 动态
5
基于时频语义学习的多维时序识别方法、装置和设备
分词 序列识别 识别方法 语义 蒙特卡洛
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号