场景文本合成方法及装置

正文

推荐专利

场景文本合成方法及装置

申请号：CN202510401254

申请日期：2025-03-31

公开号：CN120374795A

公开日期：2025-07-25

类型：发明专利

摘要

本申请实施例了提供一种场景文本合成方法，该场景文本合成方法包括：获取场景图像、掩码区域图像和目标文本图像，掩码区域图像用于指明在场景图像中合成文本的掩码区域，目标文本图像包括不同颜色的背景和目标文本；基于场景图像和目标文本图像进行拼接，得到第一拼接图像；基于掩码区域图像对第一拼接图像进行掩码处理，得到处理后的第一拼接图像；基于目标文本生成提示文本，提示文本用于说明目标文本在场景图像中的合成信息；基于处理后的第一拼接图像和提示文本利用基于Transformer的扩散模型合成场景文本图像，扩散模型基于多模态注意力机制对输入进行处理，以合成场景文本图像。本申请实施例的技术方案可以降低模型复杂度，应用于多种语言中。

技术关键词

场景文本图像多模态注意力训练场景图像编码画布机制可读存储介质颜色计算机程序产品拼接模块图像拼接编码器处理器通信字体

系统为您推荐了相关专利信息

基于SAM模型的人机协同遥感影像标注方法

影像标注方法人机协同语义分割模型嵌入特征语义特征

基于大小模型协同的工业巡检智能决策方法及系统

智能决策方法工业巡检跨模态融合特征多模态云端

一种执勤记录终端及服务器

多模态数据服务器矩阵项目

一种基于强迫提示词学习的视觉语言模型分布外检测方法及装置

外检测方法文本编码器图像编码器视觉训练集

一种基于扩散模型的精细可控图像风格化方法

图像风格化方法注意力颜色文本噪声

场景文本合成方法及装置

站点导航

APP 下载