一种基于视觉大语言模型的图像伪造多类型检测方法及系统

正文

推荐专利

申请号：CN202510343921

申请日期：2025-03-22

公开号：CN120388380A

公开日期：2025-07-29

类型：发明专利

摘要

本发明公开了一种基于视觉大语言模型的图像伪造多类型检测方法及系统，属于图像处理与计算机视觉技术领域。该方法先对包含正常、复制粘贴伪造及拼接伪造图像的数据集进行预处理，再利用预训练模型提取视觉和语言特征，采用多模态对齐技术实现特征融合。通过分类任务判断图像是否伪造，分割任务定位伪造区域，同时利用文本生成模块输出伪造文本描述。损失函数结合分类、分割、对比和文本交叉熵损失进行优化。采用端到端训练与课程学习策略训练模型，推理时输出伪造概率、区域掩码和文本描述。本发明能同时处理多种伪造类型，实现高精度定位，有效融合多模态信息，且可提供详细的伪造文本描述。

技术关键词

视觉特征语言编码器文本大语言模型模态特征图像对齐技术融合多模态信息跨模态三元组损失函数损失函数设计计算机视觉技术模块样本预训练模型多层感知机锚点

一种基于视觉大语言模型的图像伪造多类型检测方法及系统

站点导航

APP 下载