基于DSTCN的多模态视频特征提取方法、装置及设备

AITNT
正文
推荐专利
基于DSTCN的多模态视频特征提取方法、装置及设备
申请号:CN202510849599
申请日期:2025-06-23
公开号:CN120766177A
公开日期:2025-10-10
类型:发明专利
摘要
本发明涉及人工智能技术领域,本方案可应用于金融、医疗领域,本发明提供一种基于DSTCN的多模态视频特征提取方法、装置及设备,方法包括:对原始视频数据进行预处理,得到处理后数据;使用双流特征提取引擎对视频帧序列进行处理,输出对应的双流特征;通过低秩投影矩阵对音频特征、文本特征及双流特征进行跨模态特征交互处理,输出融合特征;利用Transformer编码器对融合特征进行处理,输出对应的多模态视频特征。本发明实施例采用双流架构,降低计算开销,针对多模态融合,通过低秩投影矩阵对音频特征、文本特征及双流特征进行高效交互,提高多模态融合效率,提升特征表达能力。
技术关键词
视频特征提取方法 投影特征 音频特征 视频帧 融合特征 矩阵 跨模态 序列 文本 时序特征 空间特征提取 编码器 动态 处理器 多模态 立方体 人工智能技术
系统为您推荐了相关专利信息
1
一种基于多模态特征引导的稀疏视角下三维场景重建方法
三维场景重建方法 视角 图像分割模型 多模态特征 图像编码器
2
面向水下机器人图像处理的对偶互补动态卷积优化方法及系统
水下机器人 调制特征 卷积优化方法 机械臂末端执行器 融合特征
3
基于注意力机制的车道线检测方法、设备和存储介质
锚点 局部特征提取 全局特征提取 车道线检测方法 特征提取模块
4
喷淋灭火方法、装置、电子设备以及介质
实时视频 授权平台 消防喷淋系统 灭火方法 烟火识别算法
5
一种碰撞事件检测方法、介质、设备及系统
事件检测方法 车辆 视频帧 多模态 行人检测
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号