摘要
本发明涉及一种音视频联合的事件检测方法,包括以下步骤:获取目标音视频,所述目标音视频包含若干连续的音视频片段;利用音视频检测模型分析所述目标音视频获得事件分类结果:所述音视频检测模型通过弱监督学习进行优化,并通过以下步骤来去除标签噪声:获取辅助音视频,所述辅助音视频包含与所述目标音视频不相关的事件类别;通过交换所述目标音视频和所述辅助音视频的音频模态或视觉模态生成对抗性样本;利用置信度预测模型分析获得所述目标音视频和所述对抗性样本的事件类别和事件置信度;根据所述目标音视频和所述对抗性样本的事件类别和事件置信度来去除标签噪声。本发明能够提高事件检测的准确性。
技术关键词
音视频
视觉特征
音频特征
对抗性
事件检测方法
弱监督学习
融合特征
样本
特征提取模块
对齐模块
多实例
跨模态
标签
噪声
多模态
注意力机制
系统为您推荐了相关专利信息
视频生成方法
语音
生成对抗模型
视频生成系统
采样点
蓝牙模块
蓝牙设备
显示设备
音频数据处理方法
指令
自动检测方法
建立检测模型
关键帧提取算法
全局平均池化
图像篡改检测
多媒体接口
多路解码器
移动行业处理器接口
网络加速器
音视频