场景文本合成方法及装置

AITNT
正文
推荐专利
场景文本合成方法及装置
申请号:CN202510401254
申请日期:2025-03-31
公开号:CN120374795A
公开日期:2025-07-25
类型:发明专利
摘要
本申请实施例了提供一种场景文本合成方法,该场景文本合成方法包括:获取场景图像、掩码区域图像和目标文本图像,掩码区域图像用于指明在场景图像中合成文本的掩码区域,目标文本图像包括不同颜色的背景和目标文本;基于场景图像和目标文本图像进行拼接,得到第一拼接图像;基于掩码区域图像对第一拼接图像进行掩码处理,得到处理后的第一拼接图像;基于目标文本生成提示文本,提示文本用于说明目标文本在场景图像中的合成信息;基于处理后的第一拼接图像和提示文本利用基于Transformer的扩散模型合成场景文本图像,扩散模型基于多模态注意力机制对输入进行处理,以合成场景文本图像。本申请实施例的技术方案可以降低模型复杂度,应用于多种语言中。
技术关键词
场景文本图像 多模态注意力 训练场景 图像编码 画布 机制 可读存储介质 颜色 计算机程序产品 拼接模块 图像拼接 编码器 处理器通信 字体
系统为您推荐了相关专利信息
1
基于SAM模型的人机协同遥感影像标注方法
影像标注方法 人机协同 语义分割模型 嵌入特征 语义特征
2
基于大小模型协同的工业巡检智能决策方法及系统
智能决策方法 工业巡检 跨模态融合特征 多模态 云端
3
一种执勤记录终端及服务器
多模态 数据 服务器 矩阵 项目
4
一种基于强迫提示词学习的视觉语言模型分布外检测方法及装置
外检测方法 文本编码器 图像编码器 视觉 训练集
5
一种基于扩散模型的精细可控图像风格化方法
图像风格化方法 注意力 颜色 文本 噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号