摘要
本发明提供一种基于音视频时域融合的深度伪造检测方法和系统,利用一个自监督的特征提取器捕获音频和视频两个模态间的不连续性,首先使用残差网络提取视频特征,使用前馈网络提取音频特征,然后使用Transformer编码器对合并的视频特征和音频特征进行融合;同时,视频特征和音频特征也分别被输入到Transformer编码器进行高维特征提取;最终,由Transformer编码器得到的视频特征、音频特征、音视频融合特征被合并在一起,通过多尺度时域卷积网络进行深度特征融合,并通过时域池化层和线性层得到最终的检测结果。本发明能够充分的利用深度伪造视频的多模态信息,提升深度伪造视频检测的准确率。
技术关键词
音频特征
时域卷积网络
注意力
模态特征
残差网络
前馈神经网络
分支
多尺度
存储程序代码
多模态
特征提取模块
对音视频
深度特征融合
编码器
人脸
可读存储介质
特征提取器
系统为您推荐了相关专利信息
文本特征向量
图像特征向量
多模态
三元组损失函数
视觉
工业产品表面缺陷
剪枝策略
融合特征
高层语义信息
特征融合网络
轨迹预测方法
JPDA算法
车辆
雷达
匈牙利算法
热量检测方法
菜品图像
决策级融合方法
检测食物
ResNet网络
轨迹预报方法
前馈神经网络
船载雷达
船舶运动状态
长短期记忆网络