摘要
本发明公开了通过大型语言模型生成文本提示来增强图像操作定位方法,将图像和指令输入到大型语言模型(LLMs)中,生成与图像篡改区域相关的提示文本;将所述提示文本输入到文本编码器(BERT)中,提取文本特征,所述文本特征用于补充图像视觉特征中缺失的语义信息;对图像进行数据增强处理;将数据增强后的图像输入到图像编码器(PVTv2)中,提取图像的篡改特征;本发明通过引入大型语言模型(LLMs)生成的文本提示,补充了图像视觉特征中缺失的深层语义关系和逻辑联系,弥补了传统图像操作定位(I ML)方法仅依赖视觉线索的不足,使模型能够更好地理解图像内容的语义背景,从而显著提高了对复杂场景和篡改区域的定位精度。
技术关键词
定位方法
图像篡改区域
图像视觉特征
文本编码器
图像编码器
多头注意力机制
图像篡改定位
语义分析能力
物体
解码器
输出特征
数据
多模态
指令
模块
鲁棒性