一种融合文本语义引导与视觉结构先验的跨模态交互的图像修复方法

正文

推荐专利

申请号：CN202510926394

申请日期：2025-07-04

公开号：CN120876312A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种融合文本语义引导与视觉结构先验的跨模态交互的图像修复方法，首先，获取用户输入的自然语言描述和待修复图像，通过语义分割模型生成图像的语义分割图；利用预训练的跨模态编码模型对文本与图像语义进行编码，获得文本、语义特征；通过 Prompt 引导语义对齐注意力模块，实现多模态语义特征与图像空间特征的深度融合；通过构造文本引导权重图，与优化后的语义分割图进行元素级调制，构建跨模态结构语义特征图，生成结构调制因子，实现图像特征的结构增强与调控；采用四阶段图像修复网络,逐步生成符合语义引导和结构先验的高质量修复图像。该方法提升了图像修复结果的语义一致性、结构完整性和视觉真实感。

技术关键词

图像修复方法结构先验语义特征文本跨模态语义向量生成结构语义分割模型注意力机制上下文特征 Sigmoid函数多模态特征融合视觉真实感因子卷积特征提取局部二值模式编码

一种融合文本语义引导与视觉结构先验的跨模态交互的图像修复方法

站点导航

APP 下载