一种基于对称扩散模型和视觉再生成的图像描述方法

正文

推荐专利

申请号：CN202510190500

申请日期：2025-02-20

公开号：CN120148033A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种基于对称扩散模型和视觉再生成的图像描述方法，包含两个分别用于图像到文本和文本到图像生成的扩散模型，利用预先训练的图像编码器和文本编码器分别获得图像表示和文本表示，然后将图像表示和噪声文本表示输入到去噪器以生成文本描述；最后设计了一种名为视觉再生成损失的损失函数，它可以通过最大化再生成图像和原始输入图像之间的视觉语义一致性来保证输入图像和生成的文本描述之间的语义对齐。与大多数现有的图像描述方法不同，本发明可以通过输入图像和再生图像之间的视觉相似性进一步评估并优化生成的句子。

技术关键词

视觉文本编码器图像编码器噪声更新模型参数传播算法标签语义解码器模块定义通道

系统为您推荐了相关专利信息

非负矩阵分解与时频掩蔽的语音降噪方法、装置及介质

改进型离散余弦变换语音降噪方法深度神经网络矩阵低延迟

基于双通道光纤传感的精准同步的协同数据信号分析方法

分析方法非线性噪声传感偏振态通道

一种针对外部干扰影响的多机器人系统故障检测方法

系统故障检测方法观测器生成算法表达式异构多机器人系统

一种基于微动特征的水下目标识别方法

矢量水听器坐标系水下航行器螺旋桨微动特征识别方法

一种基于样本扩增和噪声注意力网络的心音分类方法

心音分类方法通道注意力机制噪声 sigmoid函数生成对抗网络

一种基于对称扩散模型和视觉再生成的图像描述方法

站点导航

APP 下载