摘要
本发明提供了一种基于弱监督动态优化的运动目标智能检测方法及系统,对原始视频和文本分别提取视频特征和文本特征,并进行融合,生成帧级语义相似度得分作为伪标签;利用可学习对象查询与融合特征交互,生成正负提案掩码;利用伪标签引导正提案的特征对比学习,使正提案在语义空间中无限贴合文本特征,并使负提案无限偏离文本特征的相关区域;利用正负提案掩码,基于掩码条件Transformer进行文本重建,并对不同提案进行语义一致性训练,得到视频时域定位结果;对视频时域定位结果进行动态优化,生成最终定位结果,完成运动目标智能检测。本发明通过构建可学习负提案与动态伪标签约束机制,显著提升了在弱监督条件下的时域定位精度。
技术关键词
文本
智能检测方法
跨模态融合特征
语义
视频
前馈神经网络
标签
动态
时序特征
重建误差
模态特征
运动
智能检测系统
计算机终端
特征提取模块
解码器
处理器
对象
系统为您推荐了相关专利信息
意图识别模型
车辆事故信息
可读存储介质
车辆行驶信息
场景
卷积神经网络模型
资源调度方法
视频分析
复杂度
云端服务器