摘要
本申请公开了一种基于扩散模型的文生图及扩散模型训练方法、装置及设备,包括:获取样本图片、实例的标注框、局部文本描述及全局文本描述;通过扩散过程加噪;选择训练样本图片划分多个切块;利用扩散模型的交叉注意力模块进行交互注意力计算,得到局部文本描述/全局文本描述对各切块的注意力分数;确定该切块所属的文本描述为所属实例的局部文本描述或为空;将训练样本图片的多个切块、各切块所属的文本描述、全局文本描述、各切块所属文本描述对该切块的注意力分数输入扩散模型特征提取,对切块特征图去噪并拼接并扩散模型参数调整。本申请提出了可对多个目标实例的进行精确控制的文生图模型,生成的图像质量更高,内容更丰富,且更加客制化。
技术关键词
切块
文本
交互注意力
图片
深度残差网络
矩阵
模型训练方法
编码
样本
拼接模块
计算机存储介质
模型训练设备
处理器通信
解码器
模型训练装置
参数
模型训练模块
系统为您推荐了相关专利信息
智能生成方法
关键词
模板结构
项目
预训练语言模型
交通流量统计装置
车流量数据
分析器
交通流量统计技术
图片
文本图像识别
字符
识别置信度
轮廓特征
修正方法