摘要
本发明涉及计算机视觉技术领域,提供一种图像生成方法、装置、电子设备和存储介质,方法包括:获取目标图像的描述文本;基于大型语言模型,对所述描述文本进行场景解析,得到与所述描述文本对应的场景图;基于多模态图像生成模型,应用所述描述文本和所述场景图,生成所述目标图像。本发明提供的图像生成方法、装置、电子设备和存储介质,通过借助大型语言模型的强大自然语言处理能力,对描述文本进行场景解析,得到与描述文本对应的场景图,并结合描述文本和场景图生成目标图像。同时参考到描述文本的文本信息,以及场景图表征的空间和语义信息,可以改善生成图像的质量和语义一致性,从而生成更加精确和合理的图像。
技术关键词
图像生成方法
图像生成模型
文本
场景
多模态
非暂态计算机可读存储介质
交叉注意力机制
元素
解析单元
电子设备
图像生成装置
图像生成单元
融合特征
计算机视觉技术
处理器
关系
实体
自然语言
节点
系统为您推荐了相关专利信息
调试终端
无线调试方法
无线调试系统
无线信号覆盖范围
加密
无菌治疗盘
环境监测模块
扫描模块
管理系统
紫外线强度传感器
数据采集装置
模型训练模块
实时视频图像
密度
语义分割算法