摘要
本发明提出了一种基于跨模态的长尾视频检测方法,解决传统视频检测模型易被头部类别主导,导致尾部类别识别率低的问题。将视频和音频数据作为输入,提取音频特征、视觉特征及视觉运动特征;通过数据增强策略对特征进行重新组合,平衡长尾分布;利用音频特征引导视觉注意力机制,增强与音频相关的视觉特征表示;通过时序建模捕捉时间序列信息,并基于关联分析筛选正样本聚合特征;动态构建高置信度分支和低置信度分支,结合运动特征进行多分支特征融合;通过时序特征编码器优化分类表示,按比例叠加各分支预测结果,提升对尾部类别的分类性能。本发明通过跨模态特征协同优化和动态分支加权策略,显著提高了长尾视频数据中尾部类别的识别准确率。
技术关键词
视觉特征
视频检测方法
运动特征
音频特征
分支
跨模态
时序特征
嵌入特征
交叉注意力机制
时间序列信息
更新模型参数
梯度下降算法
视觉注意力机制
标签
指向性麦克风
数据
系统为您推荐了相关专利信息
资源调度优化方法
配电网设备
分布式电源
混合整数规划模型
注意力
生成式网络
图像超分辨方法
多任务分类
双线性池化
低分辨率模糊图像
低压配电网拓扑
二次规划模型
节点
识别方法
分支箱
视频内容检测方法
对象
视觉特征
动作融合
融合特征