摘要
本申请实施例属于人工智能领域,涉及一种基于双录场景的违规行为检测方法,包括:获取待检测的音视频;将音视频输入双录违规检测模型中的多模态特征提取网络,以提取音视频的多模态特征,多模态特征包括音视频的视频特征和音频特征;将多模态特征输入双录违规检测模型中的音频分离网络,得到音视频中各说话人的音频;基于各说话人的音频,通过多模态特征提取网络在各说话人中确定关键说话人,并确定关键说话人的音频;将多模态特征和关键说话人的音频输入双录违规检测模型中的违规检测网络,以进行旁人指导违规检测,得到音视频的违规检测结果。本申请解决了双录场景中旁人指导违规行为检测准确性较低的问题。
技术关键词
违规检测模型
多模态特征
音视频
特征提取网络
音频特征
计算机可读指令
场景
声纹特征
编码特征
计算机设备
同步性
可读存储介质
发声
特征提取模块
样本
系统为您推荐了相关专利信息
角磨机
智能集成控制系统
特征提取单元
水流特征
集成控制方法
合成孔径雷达图像
多模态特征融合
超分辨率重建方法
重建高分辨率图像
融合特征
视频生成方法
视频编码
风格
音频特征
音频编码器
检测分类模型
分类方法
机载雷达
特征提取网络
人机交互界面显示
干扰检测方法
小波阈值去噪算法
多频段
异常信号
异常状态