摘要
本发明公开了一种融合文本语义引导与视觉结构先验的跨模态交互的图像修复方法,首先,获取用户输入的自然语言描述和待修复图像,通过语义分割模型生成图像的语义分割图;利用预训练的跨模态编码模型对文本与图像语义进行编码,获得文本、语义特征;通过 Prompt 引导语义对齐注意力模块,实现多模态语义特征与图像空间特征的深度融合;通过构造文本引导权重图,与优化后的语义分割图进行元素级调制,构建跨模态结构语义特征图,生成结构调制因子,实现图像特征的结构增强与调控;采用四阶段图像修复网络,逐步生成符合语义引导和结构先验的高质量修复图像。该方法提升了图像修复结果的语义一致性、结构完整性和视觉真实感。
技术关键词
图像修复方法
结构先验
语义特征
文本
跨模态
语义向量
生成结构
语义分割模型
注意力机制
上下文特征
Sigmoid函数
多模态特征融合
视觉真实感
因子
卷积特征提取
局部二值模式
编码