一种基于视觉语言模型的深度伪造检测方法

正文

推荐专利

一种基于视觉语言模型的深度伪造检测方法

申请号：CN202510958422

申请日期：2025-07-11

公开号：CN120852974A

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种基于视觉语言模型的深度伪造检测方法，本发明涉及图像取证领域。该基于视觉语言模型的深度伪造检测方法，旨在结合多源信息以提升模型对真实图像与生成图像的判别能力。首先，通过预训练CLIP模型的图像编码器，提取图像特征。同时，在图像编码器中嵌入频域增强伪造感知适配器以挖掘图像域和频域中伪造图像的潜在异常。其次，提出一种手工特征提取模块，从图像的边缘、纹理、频率和对称性四个层面提取具有判别性的低维特征，用作伪造检测过程中的辅助信息输入，以提升模型的鲁棒性与可解释性。同时，文本提示词通过预训练CLIP模型的文本编码器，将其转化为特征向量。最后，模型通过计算图像特征与文本特征之间的余弦相似度，预测伪造得分，实现对图像真伪的判别。该方法有效改善了模型在跨数据集上的检测能力不足的问题。

技术关键词

分析模块图像编码器适配器特征提取模块视觉前馈神经网络纹理文本编码器手工特征特征加权融合频域特征残差归一化非线性对称性特征拉普拉斯双分支结构融合特征滑动窗口

一种基于视觉语言模型的深度伪造检测方法

站点导航

APP 下载