基于音视频时域融合的深度伪造检测方法和系统

正文

推荐专利

申请号：CN202510161275

申请日期：2025-02-13

公开号：CN119992422A

公开日期：2025-05-13

类型：发明专利

摘要

本发明提供一种基于音视频时域融合的深度伪造检测方法和系统，利用一个自监督的特征提取器捕获音频和视频两个模态间的不连续性，首先使用残差网络提取视频特征，使用前馈网络提取音频特征，然后使用Transformer编码器对合并的视频特征和音频特征进行融合；同时，视频特征和音频特征也分别被输入到Transformer编码器进行高维特征提取；最终，由Transformer编码器得到的视频特征、音频特征、音视频融合特征被合并在一起，通过多尺度时域卷积网络进行深度特征融合，并通过时域池化层和线性层得到最终的检测结果。本发明能够充分的利用深度伪造视频的多模态信息，提升深度伪造视频检测的准确率。

技术关键词

音频特征时域卷积网络注意力模态特征残差网络前馈神经网络分支多尺度存储程序代码多模态特征提取模块对音视频深度特征融合编码器人脸可读存储介质特征提取器

系统为您推荐了相关专利信息

一种视觉语言大模型的参数对齐方法、装置及存储介质

文本特征向量图像特征向量多模态三元组损失函数视觉

一种基于特征耦合的工业产品表面缺陷检测方法

工业产品表面缺陷剪枝策略融合特征高层语义信息特征融合网络

一种基于雷达多目标跟踪的轨迹预测方法

轨迹预测方法 JPDA算法车辆雷达匈牙利算法

一种基于深度学习的食品图像识别与热量检测方法

热量检测方法菜品图像决策级融合方法检测食物 ResNet网络

融合船载雷达测波的船舶操纵运动轨迹预报方法及系统

轨迹预报方法前馈神经网络船载雷达船舶运动状态长短期记忆网络

基于音视频时域融合的深度伪造检测方法和系统

站点导航

APP 下载