一种基于跨模态信息引导融合的文本生成图像方法及系统

AITNT
正文
推荐专利
一种基于跨模态信息引导融合的文本生成图像方法及系统
申请号:CN202510275915
申请日期:2025-03-10
公开号:CN120147479A
公开日期:2025-06-13
类型:发明专利
摘要
本发明涉及图像生成技术领域,特别涉及一种基于跨模态信息引导融合的文本生成图像方法及系统,所述方法包括:文本编码器对目标图像的文本描述进行处理得到句子特征和单词特征;增强句子特征得到图像特征;注意力驱动的深度文本图像融合模块对句子特征、单词特征和图像特征进行融合,并进一步生成初始图像;结合Mamba模块的全局语义细化模块对单词特征与初始图像的特征进行处理,得到跨模态融合特征;根据跨模态融合特征生成目标图像;更新跨模态融合特征并生成优化图像。本发明解决了文本视觉特征融合不充分的技术问题,提升了语义一致性,并克服了多阶段生成对抗网络在图像生成过程中对图像子区域间依赖关系挖掘不足的技术缺陷。
技术关键词
文本生成图像方法 跨模态融合特征 文本编码器 计算机可读指令 注意力 数据分布 语义 双向长短期记忆网络 缩放参数 模块 图像生成技术 多尺度特征融合 生成对抗网络 处理器 视觉特征
系统为您推荐了相关专利信息
1
一种信息评估方法、装置、电子设备和存储介质
注意力模型 金融业务数据 信息评估方法 集成学习模型 决策树模型
2
基于大语言模型的AI智能文档处理方法
智能文档 大语言模型 布局特征 注意力机制 生成文档
3
一种电动汽车充电桩充电控制策略分析方法及系统
充电控制策略 时序控制模型 电池剩余容量 分析方法 动态反馈机制
4
一种变电设备线路的运行评估方法、系统、设备及存储介质
变电设备 综合状态评估 数字孪生 三维模型 表达式
5
一种基于CNN-Transformer的车道线及路面分割方法及系统
车道 路面分割方法 分支 多尺度特征融合 解码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号