摘要
本公开提供了基于证据扩散模型的文本到图像多目标生成方法及系统,涉及文生图技术领域,包括:获取文本提示语;将预处理后的文本提示语输入证据扩散模型后,首先提取名词交叉注意图,将名词交叉注意图输入至多层感知机证据网络,通过非线性变换将其映射到证据空间,输出每个像素关于各语义类别的证据值,构建狄利克雷分布,并引入像素证据损失对狄利克雷分布进行优化;使用D‑S证据理论将所有名词交叉注意力图转换为基本信念分配函数,基于基本信念分配函数计算名词交叉注意图重叠区域的冲突系数,构建Token冲突损失,联合优化计算像素证据损失、Token冲突损失以及模型自身损失,直至生成图像。本公开提升了多目标图像生成的准确性与逻辑一致性。
技术关键词
生成方法
文本
非暂态计算机可读存储介质
多层感知机
图像
注意力
像素
语义
随机噪声
网络
非线性
电子设备
理论
处理器
存储器
计算机程序产品
对象
基础
生成系统
系统为您推荐了相关专利信息
视觉系统
识别系统
PLC控制器
调节组件
空间位置关系
音乐夜灯
全息图
灯光模块
全息三维显示
控制芯片
反欺诈模型
识别人脸图像
预训练模型
图像编码器
样本