一种基于跨模态的长尾视频检测方法

AITNT
正文
推荐专利
一种基于跨模态的长尾视频检测方法
申请号:CN202510460593
申请日期:2025-04-14
公开号:CN120408300A
公开日期:2025-08-01
类型:发明专利
摘要
本发明提出了一种基于跨模态的长尾视频检测方法,解决传统视频检测模型易被头部类别主导,导致尾部类别识别率低的问题。将视频和音频数据作为输入,提取音频特征、视觉特征及视觉运动特征;通过数据增强策略对特征进行重新组合,平衡长尾分布;利用音频特征引导视觉注意力机制,增强与音频相关的视觉特征表示;通过时序建模捕捉时间序列信息,并基于关联分析筛选正样本聚合特征;动态构建高置信度分支和低置信度分支,结合运动特征进行多分支特征融合;通过时序特征编码器优化分类表示,按比例叠加各分支预测结果,提升对尾部类别的分类性能。本发明通过跨模态特征协同优化和动态分支加权策略,显著提高了长尾视频数据中尾部类别的识别准确率。
技术关键词
视觉特征 视频检测方法 运动特征 音频特征 分支 跨模态 时序特征 嵌入特征 交叉注意力机制 时间序列信息 更新模型参数 梯度下降算法 视觉注意力机制 标签 指向性麦克风 数据
系统为您推荐了相关专利信息
1
一种高动态范围数据生成及泛化方法
泛化方法 网络结构 预训练网络 渲染数据集 分支
2
一种基于知识图谱的配电网停电概率分析及资源调度优化方法
资源调度优化方法 配电网设备 分布式电源 混合整数规划模型 注意力
3
一种基于遥感目标识别任务驱动的图像超分辨方法
生成式网络 图像超分辨方法 多任务分类 双线性池化 低分辨率模糊图像
4
基于功率特征的低压配电网拓扑识别方法及系统
低压配电网拓扑 二次规划模型 节点 识别方法 分支箱
5
视频内容检测方法
视频内容检测方法 对象 视觉特征 动作融合 融合特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号