一种基于特征强化和融合的视频描述方法

正文

推荐专利

一种基于特征强化和融合的视频描述方法

申请号：CN202410780291

申请日期：2024-06-17

公开号：CN118609028A

公开日期：2024-09-06

类型：发明专利

摘要

本文提供了一种基于特征强化和融合的视频描述方法，包括步骤：多模态特征提取，提取外观特征、运动特征和对象特征；语义特征提取，外观特征和运动特征串联输入到语义检测器提取语义特征；特征增强，利用局部和全局特征为模型提供正确的细节引导，放大相似物体的特征差异，提高目标主体编码特征的准确性；多模态特征融合，以外观特征为引导，筛选运动特征和对象特征中与内容更相关的视觉信息，并对特征进行融合，形成统一的多模态融合特征；特征解码，利用Transformer模型的解码器部分对编码进行解码；最后，生成视频描述内容。与现有的视频描述方法相比，通过特征增强，使得视频重点区域特征的定位识别更精确；同时通过跨模态融合网络，提升解码器的语义解码准确度，使得生成的视频描述更加准确。

技术关键词

运动特征语义特征提取多模态特征融合融合特征编码特征 Softmax分类器解码器强化特征支路视频帧输出特征对象空洞检测器视觉

系统为您推荐了相关专利信息

2D视频数字人手势生成方法

手势生成方法视频信号提取器图片解码器

一种基于多模态深度神经网络的故障监测方法及装置

故障监测方法多模态特征多任务学习网络深度神经网络可见光视频

一种面向物理动态视觉理解的体素分割系统及方法

网格物体分割系统动态语义标签

基于多模态融合的中医辅诊大模型微调训练方法及装置

编码特征多模态嵌入特征融合特征数据

碳纤维蜂窝材料内部缺陷检测方法

材料内部缺陷检测碳纤维蜂窝拼接单元频域特征包裹相位

一种基于特征强化和融合的视频描述方法

站点导航

APP 下载