摘要
本发明提供了一种长文本生成图像的模型训练方法、设备及存储介质,涉及计算机视觉领域。该方法包括获取训练图像并将训练图像输入预设图生文模型进行描述得到长文本;对长文本进行识别分析得到多个对象;对训练图像逐步进行对象移除得到多个逐步减少对象的中间图像和多个目标图像;将目标图像输入到预设图生文模型中,得到与每个对象对应的短文本;根据对象移除顺序将中间图像和短文本进行匹配生成图像数据对;将图像数据对依次输入预设模型进行迭代训练得到目标模型。通过逐步生成单一对象并与文本句子对应的方式实现对长文本生成的精细控制,避免了长文本一次性生成整幅图像所导致的控制不准确问题,保证了图像生成的逐步性和连贯性。
技术关键词
对象
文本生成图像
计算机执行指令
生成图像数据
模型训练方法
模型训练设备
序列
命名实体识别模型
可读存储介质
计算机视觉
处理器通信
存储器
频率
匹配模块
分析模块
系统为您推荐了相关专利信息
文本
局部图像特征
场景特征
计算机程序指令
图像检索方法
压缩语言模型
语言模型训练方法
适配器
模拟器
参数