摘要
本发明涉及一种基于多模态对比学习的深伪视频检测方法,适用于深度伪造检测领域;该方法包括:将待检测视频输入经训练的视频鉴伪模型,输出该待检测视频的检测结果;视频鉴伪模型包括:视觉编码器,取自经训练的音、视频对比学习模型,用于提取待检测视频中人脸序列的视觉特征;音频编码器,取自经训练的音、视频对比学习模型,用于提取待检测视频的音频特征;跨模态特征融合模块,用于融合视觉编码器提取的视觉特征和音频编码器提取的音频特征,得到特征融合结果;时空特征提取模块,用于对特征融合结果提取时空特征;融合特征不仅包含视觉特征,还包括音频特征,特征更丰富;分类器,用于基于时空特征,将待检测视频分类为真实视频或伪造视频。
技术关键词
视频检测方法
音频编码器
音频特征
视觉特征
多模态
跨模态
人脸
融合特征
特征提取模块
视频检测设备
音视频
样本
序列
分类器
处理器
存储器
参数
系统为您推荐了相关专利信息
木材表面缺陷
薄板样条插值
采集设备
纹理结构
活动轮廓模型
子模块
智能控制平台
六轴工业机器人
缝制系统
工业缝纫机
综合管理装置
自然语言
多模态数据融合
图像多模态
模型剪枝
机械臂控制方法
机械臂末端执行器
语音对话数据
单目相机
指令