基于扩散模型的文生图及扩散模型训练方法、装置及设备

正文

推荐专利

申请号：CN202411657510

申请日期：2024-11-19

公开号：CN119169434B

公开日期：2025-07-15

类型：发明专利

摘要

本申请公开了一种基于扩散模型的文生图及扩散模型训练方法、装置及设备，包括：获取样本图片、实例的标注框、局部文本描述及全局文本描述；通过扩散过程加噪；选择训练样本图片划分多个切块；利用扩散模型的交叉注意力模块进行交互注意力计算，得到局部文本描述/全局文本描述对各切块的注意力分数；确定该切块所属的文本描述为所属实例的局部文本描述或为空；将训练样本图片的多个切块、各切块所属的文本描述、全局文本描述、各切块所属文本描述对该切块的注意力分数输入扩散模型特征提取，对切块特征图去噪并拼接并扩散模型参数调整。本申请提出了可对多个目标实例的进行精确控制的文生图模型，生成的图像质量更高，内容更丰富，且更加客制化。

技术关键词

切块文本交互注意力图片深度残差网络矩阵模型训练方法编码样本拼接模块计算机存储介质模型训练设备处理器通信解码器模型训练装置参数模型训练模块

系统为您推荐了相关专利信息

基于文本自动化的招标文件智能生成方法及系统

智能生成方法关键词模板结构项目预训练语言模型

文本中关键语句的提取方法、装置及电子设备

语句文本语义摘要数值

一种交通流量统计装置

交通流量统计装置车流量数据分析器交通流量统计技术图片

一种精细化旧桩再利用建模的建立方法

地质勘探数据语义参数高应力文本

小语种文本图像识别错字修正方法及系统

文本图像识别字符识别置信度轮廓特征修正方法

基于扩散模型的文生图及扩散模型训练方法、装置及设备

站点导航

APP 下载