基于DSTCN的多模态视频特征提取方法、装置及设备

正文

推荐专利

申请号：CN202510849599

申请日期：2025-06-23

公开号：CN120766177A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及人工智能技术领域，本方案可应用于金融、医疗领域，本发明提供一种基于DSTCN的多模态视频特征提取方法、装置及设备，方法包括：对原始视频数据进行预处理，得到处理后数据；使用双流特征提取引擎对视频帧序列进行处理，输出对应的双流特征；通过低秩投影矩阵对音频特征、文本特征及双流特征进行跨模态特征交互处理，输出融合特征；利用Transformer编码器对融合特征进行处理，输出对应的多模态视频特征。本发明实施例采用双流架构，降低计算开销，针对多模态融合，通过低秩投影矩阵对音频特征、文本特征及双流特征进行高效交互，提高多模态融合效率，提升特征表达能力。

技术关键词

视频特征提取方法投影特征音频特征视频帧融合特征矩阵跨模态序列文本时序特征空间特征提取编码器动态处理器多模态立方体人工智能技术

系统为您推荐了相关专利信息

一种基于多模态特征引导的稀疏视角下三维场景重建方法

三维场景重建方法视角图像分割模型多模态特征图像编码器

面向水下机器人图像处理的对偶互补动态卷积优化方法及系统

水下机器人调制特征卷积优化方法机械臂末端执行器融合特征

基于注意力机制的车道线检测方法、设备和存储介质

锚点局部特征提取全局特征提取车道线检测方法特征提取模块

喷淋灭火方法、装置、电子设备以及介质

实时视频授权平台消防喷淋系统灭火方法烟火识别算法

一种碰撞事件检测方法、介质、设备及系统

事件检测方法车辆视频帧多模态行人检测

基于DSTCN的多模态视频特征提取方法、装置及设备

站点导航

APP 下载