摘要
本发明涉及基于条件扩散模型的可控东南亚文本图像生成方法及装置,属于自然语言处理技术领域。东南亚语言属于低资源语言,针对东南亚语言场景文本图像生成中合成数据质量较低、与真实场景差距较大,导致训练的场景文本识别模型在实际应用中性能下降的问题,本发明提出了一种基于条件扩散模型的可控东南亚文本图像生成方法,主要包括东南亚语言文本草图图像构建、融合场景风格信息的文本编码和基于注意力机制的文本图像控制生成三部分。根据这三个功能模块化研制基于条件扩散模型的可控东南亚文本图像生成装置,有效提升了生成的东南亚语言场景文本图像在视觉质量和结构一致性,有助于提升识别模型在真实场景中的识别性能。
技术关键词
图像生成方法
变分自动编码器
场景文本图像
Canny算子
字符
区域生长算法
噪声
融合场景
非暂态计算机可读存储介质
渲染技术
场景文本识别
情感分析系统
低资源语言
注意力机制
语义
系统为您推荐了相关专利信息
智能终端
车载终端
加密方法
密钥
计算机可执行程序
分布式新能源发电
电力需求量
分布式新能源电力
调度管理方法
电力调度管理