摘要
本发明公开了一种反电信欺诈的虚假人脸视频多模态帧级检测方法,特点是检测方法主要包括数据预处理、构建待训练的音视频神经网络检测模型、对检测模型的训练和对目标视频的检测识别的步骤;优点是同时利用了视频的视觉特征和音频特征,通过构建多模态神经网络,将视觉信息和音频信息进行深度融合。传统的伪造视频检测方法往往仅依赖于视觉特征,而本发明结合了音频信号,使得检测更加全面;通过对音视频特征的联合分析,本发明能够有效提高伪造视频片段检测的准确性,尤其是在伪造音视频同步欺诈场景中具有显著优势。
技术关键词
边界特征
注意力
音频特征
音视频
视觉特征
融合特征
通道
元素
数据
多模态
模块
高层次
视频帧
Sigmoid函数
标签
音频编码器
嵌套结构
系统为您推荐了相关专利信息
语义
联合信源信道编码
AF模块
信道解码器
Sigmoid函数
Modelica语言
汽车模型
建模方法
优化控制策略
自然语言
组学特征
影像组学技术
肿瘤
信息学技术
灰度共生矩阵
故障特征
预训练语言模型
故障类别
多尺度特征融合
原型