基于双录场景的违规行为检测方法、装置及计算机设备

AITNT
正文
推荐专利
基于双录场景的违规行为检测方法、装置及计算机设备
申请号:CN202411029321
申请日期:2024-07-29
公开号:CN118965069A
公开日期:2024-11-15
类型:发明专利
摘要
本申请实施例属于人工智能领域,涉及一种基于双录场景的违规行为检测方法,包括:获取待检测的音视频;将音视频输入双录违规检测模型中的多模态特征提取网络,以提取音视频的多模态特征,多模态特征包括音视频的视频特征和音频特征;将多模态特征输入双录违规检测模型中的音频分离网络,得到音视频中各说话人的音频;基于各说话人的音频,通过多模态特征提取网络在各说话人中确定关键说话人,并确定关键说话人的音频;将多模态特征和关键说话人的音频输入双录违规检测模型中的违规检测网络,以进行旁人指导违规检测,得到音视频的违规检测结果。本申请解决了双录场景中旁人指导违规行为检测准确性较低的问题。
技术关键词
违规检测模型 多模态特征 音视频 特征提取网络 音频特征 计算机可读指令 场景 声纹特征 编码特征 计算机设备 同步性 可读存储介质 发声 特征提取模块 样本
系统为您推荐了相关专利信息
1
一种基于视觉证据的视频描述物体幻觉修正方法
视频帧 修正方法 视觉 文本 物体
2
电机故障诊断方法、系统、电子设备及电机故障诊断模型训练方法
电机故障诊断方法 胶囊网络 特征提取网络 模型训练方法 电机运行状态
3
基于多模态特征的证件伪装检测方法、装置、介质及设备
证件图像 伪装检测方法 光学字符识别 多模态特征 视觉特征提取
4
一种基于大模型的复杂数据处理方法与系统
数据分析模型 特征提取算法 模型训练算法 数据处理方法 编码后数据
5
一种基于多模态交互手势识别的耳机控制方法及系统
耳机控制方法 多模态交互 动态手势 数据 偏差
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号