摘要
本发明涉及图像生成技术领域,特别涉及一种基于跨模态信息引导融合的文本生成图像方法及系统,所述方法包括:文本编码器对目标图像的文本描述进行处理得到句子特征和单词特征;增强句子特征得到图像特征;注意力驱动的深度文本图像融合模块对句子特征、单词特征和图像特征进行融合,并进一步生成初始图像;结合Mamba模块的全局语义细化模块对单词特征与初始图像的特征进行处理,得到跨模态融合特征;根据跨模态融合特征生成目标图像;更新跨模态融合特征并生成优化图像。本发明解决了文本视觉特征融合不充分的技术问题,提升了语义一致性,并克服了多阶段生成对抗网络在图像生成过程中对图像子区域间依赖关系挖掘不足的技术缺陷。
技术关键词
文本生成图像方法
跨模态融合特征
文本编码器
计算机可读指令
注意力
数据分布
语义
双向长短期记忆网络
缩放参数
模块
图像生成技术
多尺度特征融合
生成对抗网络
处理器
视觉特征
系统为您推荐了相关专利信息
注意力模型
金融业务数据
信息评估方法
集成学习模型
决策树模型
智能文档
大语言模型
布局特征
注意力机制
生成文档
充电控制策略
时序控制模型
电池剩余容量
分析方法
动态反馈机制
变电设备
综合状态评估
数字孪生
三维模型
表达式