一种融合文本语义引导与视觉结构先验的跨模态交互的图像修复方法

AITNT
正文
推荐专利
一种融合文本语义引导与视觉结构先验的跨模态交互的图像修复方法
申请号:CN202510926394
申请日期:2025-07-04
公开号:CN120876312A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种融合文本语义引导与视觉结构先验的跨模态交互的图像修复方法,首先,获取用户输入的自然语言描述和待修复图像,通过语义分割模型生成图像的语义分割图;利用预训练的跨模态编码模型对文本与图像语义进行编码,获得文本、语义特征;通过 Prompt 引导语义对齐注意力模块,实现多模态语义特征与图像空间特征的深度融合;通过构造文本引导权重图,与优化后的语义分割图进行元素级调制,构建跨模态结构语义特征图,生成结构调制因子,实现图像特征的结构增强与调控;采用四阶段图像修复网络,逐步生成符合语义引导和结构先验的高质量修复图像。该方法提升了图像修复结果的语义一致性、结构完整性和视觉真实感。
技术关键词
图像修复方法 结构先验 语义特征 文本 跨模态 语义向量 生成结构 语义分割模型 注意力机制 上下文特征 Sigmoid函数 多模态特征融合 视觉真实感 因子 卷积特征提取 局部二值模式 编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号