一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统

正文

推荐专利

申请号：CN202511225510

申请日期：2025-08-29

公开号：CN120976556A

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统，涉及计算机视觉、图像篡改定位以及自然语言处理交叉技术领域；利用LLaMA模型生成与待检测图像相关的文本提示，通过视觉特征提取器和文本特征提取器分别获取图像与文本的特征表示；随后，通过多模态交互提示模块实现跨模态特征的深度融合与对齐；最后，结合空间特征金字塔网络和多层感知器输出精准的篡改区域定位结果。本发明通过跨模态自注意力与交叉注意力机制实现视觉特征与文本语义的深度对齐，显著提升模型对篡改区域的语义关联理解；同时结合空间特征金字塔网络与轻量化SegFormer解码器，有效增强对多尺度篡改区域的捕捉能力，尤其在微小篡改和大区域伪造场景下表现更优。

技术关键词

图像篡改定位方法特征金字塔网络文本语义特征多模态交互交叉注意力机制篡改区域定位预训练语言模型多层感知器跨模态多模态特征融合视觉特征提取生成高分辨率边缘检测模块

系统为您推荐了相关专利信息

一种目标对象的确定方法、电子设备及存储介质

关键词对象非瞬时性计算机可读存储介质措施语句

基于用户偏好设置的图文信息浏览推送方法

图文推送方法文本特征向量语义序列

一种基于数据增强的行人重识别方法及系统

行人重识别数据服装图像重识别方法关键点

一种PDF文档的差异比对方法及相关装置

比对方法计算机可读指令电子设备特征点文本

基于人工智能的BIM数据处理与建筑施工质量评估方法

建筑施工数据样本非线性生成对抗网络对抗性

一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统

站点导航

APP 下载