摘要
本申请实施例属于人工智能领域,涉及一种基于双录场景的违规行为检测方法,包括:获取待检测的音视频;将音视频输入双录违规检测模型中的多模态特征提取网络,以提取音视频的多模态特征,多模态特征包括音视频的视频特征和音频特征;将多模态特征输入双录违规检测模型中的音频分离网络,得到音视频中各说话人的音频;基于各说话人的音频,通过多模态特征提取网络在各说话人中确定关键说话人,并确定关键说话人的音频;将多模态特征和关键说话人的音频输入双录违规检测模型中的违规检测网络,以进行旁人指导违规检测,得到音视频的违规检测结果。本申请解决了双录场景中旁人指导违规行为检测准确性较低的问题。
技术关键词
违规检测模型
多模态特征
音视频
特征提取网络
音频特征
计算机可读指令
场景
声纹特征
编码特征
计算机设备
同步性
可读存储介质
发声
特征提取模块
样本
系统为您推荐了相关专利信息
电机故障诊断方法
胶囊网络
特征提取网络
模型训练方法
电机运行状态
证件图像
伪装检测方法
光学字符识别
多模态特征
视觉特征提取
数据分析模型
特征提取算法
模型训练算法
数据处理方法
编码后数据