一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统

AITNT
正文
推荐专利
一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统
申请号:CN202511225510
申请日期:2025-08-29
公开号:CN120976556A
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种基于多模态提示引导的VisionTransformer图像篡改定位方法及系统,涉及计算机视觉、图像篡改定位以及自然语言处理交叉技术领域;利用LLaMA模型生成与待检测图像相关的文本提示,通过视觉特征提取器和文本特征提取器分别获取图像与文本的特征表示;随后,通过多模态交互提示模块实现跨模态特征的深度融合与对齐;最后,结合空间特征金字塔网络和多层感知器输出精准的篡改区域定位结果。本发明通过跨模态自注意力与交叉注意力机制实现视觉特征与文本语义的深度对齐,显著提升模型对篡改区域的语义关联理解;同时结合空间特征金字塔网络与轻量化SegFormer解码器,有效增强对多尺度篡改区域的捕捉能力,尤其在微小篡改和大区域伪造场景下表现更优。
技术关键词
图像篡改定位方法 特征金字塔网络 文本 语义特征 多模态交互 交叉注意力机制 篡改区域定位 预训练语言模型 多层感知器 跨模态 多模态特征融合 视觉特征提取 生成高分辨率 边缘检测 模块
系统为您推荐了相关专利信息
1
一种目标对象的确定方法、电子设备及存储介质
关键词 对象 非瞬时性计算机可读存储介质 措施 语句
2
基于用户偏好设置的图文信息浏览推送方法
图文 推送方法 文本特征向量 语义 序列
3
一种基于数据增强的行人重识别方法及系统
行人重识别数据 服装 图像 重识别方法 关键点
4
一种PDF文档的差异比对方法及相关装置
比对方法 计算机可读指令 电子设备 特征点 文本
5
基于人工智能的BIM数据处理与建筑施工质量评估方法
建筑施工数据 样本 非线性 生成对抗网络 对抗性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号