摘要
本发明属于视频特征解析技术领域,尤其涉及一种多模态视频数据与文本数据混合融合方法及系统,包括:基础模态融合与语义引导的多模态融合;使用预训练的视觉特征编码器提取:视觉数据1、视觉数据2、视觉数据3;通过文本特征编码器提取:文本数据;使用彩色视频数据作为视觉数据1,深度数据作为视觉数据2,红外数据作为视觉数据3,这三类视觉数据在基础模态融合阶段将经过跨模态信息交互机制实现信息互补;随后,系统进入语义引导的多模态融合阶段,在这个阶段通过构建语义注意力权重,将文本语义特征动态映射到视觉特征空间,以此指导多模态视觉特征的融合过程。
技术关键词
融合方法
多路径特征融合
视觉特征
文本
多模态
融合特征
彩色视频数据
信息交互机制
编码器
特征提取模块
语义注意力
注意力参数
语义特征
通道注意力机制
系统为您推荐了相关专利信息
支持向量机模型
多模态
CRF模型
坐标点
生成结构
智能安装机器人
光伏板
定位识别方法
视觉特征
高清摄像头
风电机组齿轮箱
判别方法
卷积神经网络提取
三通道
判别装置
能源调度方法
均衡策略
充放电功率
多模态特征
电网频率偏差