摘要
本发明涉及一种融合多模态信息的深度伪造视频检测方法及装置,应用于视频检测技术领域。本发明采用了多头自注意力机制分别处理待检测视频的视频帧特征向量Xv和音频MEL频谱图的音频特征向量Xa,然后将所述待检测视频的视频帧特征向量Xv和所述音频MEL频谱图的音频特征向量Xa的两种模态特征进行加权融合,从而提升深度伪造视频检测方法的准确性与鲁棒性。多模态特征的融合能够充分利用不同模态信息的互补性,确保捕捉到更全面的特征,从而提升深度伪造视频检测的准确性与鲁棒性。
技术关键词
伪造视频检测方法
融合多模态信息
融合特征
视频帧
音频
高维特征向量
浮点型数据
计算机执行指令
注意力机制
多模态注意力
视频检测装置
特征加权融合
视频检测技术
交互注意力
多模态特征
图像块
处理器
系统为您推荐了相关专利信息
健康状态分类方法
多模态注意力
多模态特征融合
特征提取模块
融合特征
故障诊断方法
决策树模型
空间特征提取
多模态
复合多尺度
数字视听场所
歌词信息
显示设备
灯光控制
生成歌词
文档检索方法
融合特征
反馈特征
语义特征
时序特征
特征融合网络
多尺度特征提取
注意力机制
多尺度融合网络
双向特征金字塔