摘要
本发明涉及人工智能技术领域,本方案可应用于金融、医疗领域,本发明提供一种基于DSTCN的多模态视频特征提取方法、装置及设备,方法包括:对原始视频数据进行预处理,得到处理后数据;使用双流特征提取引擎对视频帧序列进行处理,输出对应的双流特征;通过低秩投影矩阵对音频特征、文本特征及双流特征进行跨模态特征交互处理,输出融合特征;利用Transformer编码器对融合特征进行处理,输出对应的多模态视频特征。本发明实施例采用双流架构,降低计算开销,针对多模态融合,通过低秩投影矩阵对音频特征、文本特征及双流特征进行高效交互,提高多模态融合效率,提升特征表达能力。
技术关键词
视频特征提取方法
投影特征
音频特征
视频帧
融合特征
矩阵
跨模态
序列
文本
时序特征
空间特征提取
编码器
动态
处理器
多模态
立方体
人工智能技术
系统为您推荐了相关专利信息
三维场景重建方法
视角
图像分割模型
多模态特征
图像编码器
水下机器人
调制特征
卷积优化方法
机械臂末端执行器
融合特征
锚点
局部特征提取
全局特征提取
车道线检测方法
特征提取模块
实时视频
授权平台
消防喷淋系统
灭火方法
烟火识别算法