摘要
本发明公开了一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统,涉及计算机视觉、图像篡改定位以及自然语言处理交叉技术领域;利用LLaMA模型生成与待检测图像相关的文本提示,通过视觉特征提取器和文本特征提取器分别获取图像与文本的特征表示;随后,通过多模态交互提示模块实现跨模态特征的深度融合与对齐;最后,结合空间特征金字塔网络和多层感知器输出精准的篡改区域定位结果。本发明通过跨模态自注意力与交叉注意力机制实现视觉特征与文本语义的深度对齐,显著提升模型对篡改区域的语义关联理解;同时结合空间特征金字塔网络与轻量化SegFormer解码器,有效增强对多尺度篡改区域的捕捉能力,尤其在微小篡改和大区域伪造场景下表现更优。
技术关键词
图像篡改定位方法
特征金字塔网络
文本
语义特征
多模态交互
交叉注意力机制
篡改区域定位
预训练语言模型
多层感知器
跨模态
多模态特征融合
视觉特征提取
生成高分辨率
边缘检测
模块
系统为您推荐了相关专利信息
关键词
对象
非瞬时性计算机可读存储介质
措施
语句