摘要
本申请实施例了提供一种场景文本合成方法,该场景文本合成方法包括:获取场景图像、掩码区域图像和目标文本图像,掩码区域图像用于指明在场景图像中合成文本的掩码区域,目标文本图像包括不同颜色的背景和目标文本;基于场景图像和目标文本图像进行拼接,得到第一拼接图像;基于掩码区域图像对第一拼接图像进行掩码处理,得到处理后的第一拼接图像;基于目标文本生成提示文本,提示文本用于说明目标文本在场景图像中的合成信息;基于处理后的第一拼接图像和提示文本利用基于Transformer的扩散模型合成场景文本图像,扩散模型基于多模态注意力机制对输入进行处理,以合成场景文本图像。本申请实施例的技术方案可以降低模型复杂度,应用于多种语言中。
技术关键词
场景文本图像
多模态注意力
训练场景
图像编码
画布
机制
可读存储介质
颜色
计算机程序产品
拼接模块
图像拼接
编码器
处理器通信
字体
系统为您推荐了相关专利信息
影像标注方法
人机协同
语义分割模型
嵌入特征
语义特征
智能决策方法
工业巡检
跨模态融合特征
多模态
云端