摘要
本发明公开了一种基于对称扩散模型和视觉再生成的图像描述方法,包含两个分别用于图像到文本和文本到图像生成的扩散模型,利用预先训练的图像编码器和文本编码器分别获得图像表示和文本表示,然后将图像表示和噪声文本表示输入到去噪器以生成文本描述;最后设计了一种名为视觉再生成损失的损失函数,它可以通过最大化再生成图像和原始输入图像之间的视觉语义一致性来保证输入图像和生成的文本描述之间的语义对齐。与大多数现有的图像描述方法不同,本发明可以通过输入图像和再生图像之间的视觉相似性进一步评估并优化生成的句子。
技术关键词
视觉
文本编码器
图像编码器
噪声
更新模型参数
传播算法
标签
语义
解码器
模块
定义
通道
系统为您推荐了相关专利信息
改进型离散余弦变换
语音降噪方法
深度神经网络
矩阵
低延迟
系统故障检测方法
观测器
生成算法
表达式
异构多机器人系统
矢量水听器
坐标系
水下航行器螺旋桨
微动特征
识别方法
心音分类方法
通道注意力机制
噪声
sigmoid函数
生成对抗网络