摘要
本发明公开了一种基于提示学习的多模态深度伪造视频检测装置及方法,包括将输入的视频数据切分成小片段,并提取视觉内容和音频信号;采用视觉深伪特征提取和预测模块进行视觉深伪特征提取并预测视觉模态的真伪;采用音频深伪特征提取和预测模块提取音频深伪特征并预测音频模态的真伪;多模态特征对齐模块,用于将视觉特征和音频特征在时间维度上进行对齐;跨模态特征匹配模块,用于将视频特征和音频特征进行帧级匹配,学习细粒度的音视频一致性特征;视频预测模块,用于多模态特征融合并预测视频的真伪。本发明针对多模态深度伪造视频设计了端到端的伪造检测装置,能够更有效的应对多模态伪造检测任务,提高视频造假的难度。
技术关键词
音频特征
伪造视频检测方法
视频检测装置
音频采样
对齐模块
多模态特征融合
视觉特征提取
样本
匹配模块
音视频
声谱
分类网络
跨模态
输出特征
系统为您推荐了相关专利信息
航迹信息
对齐模块
多模型滤波
平滑算法
卡尔曼滤波
自然语言信息
诊疗方法
门控开关
大语言模型
多模型
水下滑翔机
数据处理方法
动态位置编码
多任务分类
音频特征