一种基于跨模态信息引导融合的文本生成图像方法及系统

正文

推荐专利

申请号：CN202510275915

申请日期：2025-03-10

公开号：CN120147479A

公开日期：2025-06-13

类型：发明专利

摘要

本发明涉及图像生成技术领域，特别涉及一种基于跨模态信息引导融合的文本生成图像方法及系统，所述方法包括：文本编码器对目标图像的文本描述进行处理得到句子特征和单词特征；增强句子特征得到图像特征；注意力驱动的深度文本图像融合模块对句子特征、单词特征和图像特征进行融合，并进一步生成初始图像；结合Mamba模块的全局语义细化模块对单词特征与初始图像的特征进行处理，得到跨模态融合特征；根据跨模态融合特征生成目标图像；更新跨模态融合特征并生成优化图像。本发明解决了文本视觉特征融合不充分的技术问题，提升了语义一致性，并克服了多阶段生成对抗网络在图像生成过程中对图像子区域间依赖关系挖掘不足的技术缺陷。

技术关键词

文本生成图像方法跨模态融合特征文本编码器计算机可读指令注意力数据分布语义双向长短期记忆网络缩放参数模块图像生成技术多尺度特征融合生成对抗网络处理器视觉特征

系统为您推荐了相关专利信息

一种信息评估方法、装置、电子设备和存储介质

注意力模型金融业务数据信息评估方法集成学习模型决策树模型

基于大语言模型的AI智能文档处理方法

智能文档大语言模型布局特征注意力机制生成文档

一种电动汽车充电桩充电控制策略分析方法及系统

充电控制策略时序控制模型电池剩余容量分析方法动态反馈机制

一种变电设备线路的运行评估方法、系统、设备及存储介质

变电设备综合状态评估数字孪生三维模型表达式

一种基于CNN-Transformer的车道线及路面分割方法及系统

车道路面分割方法分支多尺度特征融合解码器

一种基于跨模态信息引导融合的文本生成图像方法及系统

站点导航

APP 下载