摘要
本发明公开了一种基于视觉大语言模型的图像伪造多类型检测方法及系统,属于图像处理与计算机视觉技术领域。该方法先对包含正常、复制粘贴伪造及拼接伪造图像的数据集进行预处理,再利用预训练模型提取视觉和语言特征,采用多模态对齐技术实现特征融合。通过分类任务判断图像是否伪造,分割任务定位伪造区域,同时利用文本生成模块输出伪造文本描述。损失函数结合分类、分割、对比和文本交叉熵损失进行优化。采用端到端训练与课程学习策略训练模型,推理时输出伪造概率、区域掩码和文本描述。本发明能同时处理多种伪造类型,实现高精度定位,有效融合多模态信息,且可提供详细的伪造文本描述。
技术关键词
视觉特征
语言编码器
文本
大语言模型
模态特征
图像
对齐技术
融合多模态信息
跨模态
三元组损失函数
损失函数设计
计算机视觉技术
模块
样本
预训练模型
多层感知机
锚点