一种基于跨模态的长尾视频检测方法

正文

推荐专利

一种基于跨模态的长尾视频检测方法

申请号：CN202510460593

申请日期：2025-04-14

公开号：CN120408300A

公开日期：2025-08-01

类型：发明专利

摘要

本发明提出了一种基于跨模态的长尾视频检测方法，解决传统视频检测模型易被头部类别主导，导致尾部类别识别率低的问题。将视频和音频数据作为输入，提取音频特征、视觉特征及视觉运动特征；通过数据增强策略对特征进行重新组合，平衡长尾分布；利用音频特征引导视觉注意力机制，增强与音频相关的视觉特征表示；通过时序建模捕捉时间序列信息，并基于关联分析筛选正样本聚合特征；动态构建高置信度分支和低置信度分支，结合运动特征进行多分支特征融合；通过时序特征编码器优化分类表示，按比例叠加各分支预测结果，提升对尾部类别的分类性能。本发明通过跨模态特征协同优化和动态分支加权策略，显著提高了长尾视频数据中尾部类别的识别准确率。

技术关键词

视觉特征视频检测方法运动特征音频特征分支跨模态时序特征嵌入特征交叉注意力机制时间序列信息更新模型参数梯度下降算法视觉注意力机制标签指向性麦克风数据

系统为您推荐了相关专利信息

一种高动态范围数据生成及泛化方法

泛化方法网络结构预训练网络渲染数据集分支

一种基于知识图谱的配电网停电概率分析及资源调度优化方法

资源调度优化方法配电网设备分布式电源混合整数规划模型注意力

一种基于遥感目标识别任务驱动的图像超分辨方法

生成式网络图像超分辨方法多任务分类双线性池化低分辨率模糊图像

基于功率特征的低压配电网拓扑识别方法及系统

低压配电网拓扑二次规划模型节点识别方法分支箱

视频内容检测方法

视频内容检测方法对象视觉特征动作融合融合特征

一种基于跨模态的长尾视频检测方法

站点导航

APP 下载