摘要
本发明公开了一种基于视觉语言模型的深度伪造检测方法,本发明涉及图像取证领域。该基于视觉语言模型的深度伪造检测方法,旨在结合多源信息以提升模型对真实图像与生成图像的判别能力。首先,通过预训练CLIP模型的图像编码器,提取图像特征。同时,在图像编码器中嵌入频域增强伪造感知适配器以挖掘图像域和频域中伪造图像的潜在异常。其次,提出一种手工特征提取模块,从图像的边缘、纹理、频率和对称性四个层面提取具有判别性的低维特征,用作伪造检测过程中的辅助信息输入,以提升模型的鲁棒性与可解释性。同时,文本提示词通过预训练CLIP模型的文本编码器,将其转化为特征向量。最后,模型通过计算图像特征与文本特征之间的余弦相似度,预测伪造得分,实现对图像真伪的判别。该方法有效改善了模型在跨数据集上的检测能力不足的问题。
技术关键词
分析模块
图像编码器
适配器
特征提取模块
视觉
前馈神经网络
纹理
文本编码器
手工特征
特征加权融合
频域特征
残差归一化
非线性
对称性特征
拉普拉斯
双分支结构
融合特征
滑动窗口