一种基于对称扩散模型和视觉再生成的图像描述方法

AITNT
正文
推荐专利
一种基于对称扩散模型和视觉再生成的图像描述方法
申请号:CN202510190500
申请日期:2025-02-20
公开号:CN120148033A
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开了一种基于对称扩散模型和视觉再生成的图像描述方法,包含两个分别用于图像到文本和文本到图像生成的扩散模型,利用预先训练的图像编码器和文本编码器分别获得图像表示和文本表示,然后将图像表示和噪声文本表示输入到去噪器以生成文本描述;最后设计了一种名为视觉再生成损失的损失函数,它可以通过最大化再生成图像和原始输入图像之间的视觉语义一致性来保证输入图像和生成的文本描述之间的语义对齐。与大多数现有的图像描述方法不同,本发明可以通过输入图像和再生图像之间的视觉相似性进一步评估并优化生成的句子。
技术关键词
视觉 文本编码器 图像编码器 噪声 更新模型参数 传播算法 标签 语义 解码器 模块 定义 通道
系统为您推荐了相关专利信息
1
非负矩阵分解与时频掩蔽的语音降噪方法、装置及介质
改进型离散余弦变换 语音降噪方法 深度神经网络 矩阵 低延迟
2
基于双通道光纤传感的精准同步的协同数据信号分析方法
分析方法 非线性噪声 传感 偏振态 通道
3
一种针对外部干扰影响的多机器人系统故障检测方法
系统故障检测方法 观测器 生成算法 表达式 异构多机器人系统
4
一种基于微动特征的水下目标识别方法
矢量水听器 坐标系 水下航行器螺旋桨 微动特征 识别方法
5
一种基于样本扩增和噪声注意力网络的心音分类方法
心音分类方法 通道注意力机制 噪声 sigmoid函数 生成对抗网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号