一种用于图像和文本双向生成的跨模态双向特征生成方法

正文

推荐专利

申请号：CN202510325349

申请日期：2025-03-19

公开号：CN120181144A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了一种用于图像和文本双向生成的跨模态双向特征生成方法。包括：1)一种新颖的跨模态图像和文本双向特征生成方法，该方法的网络模型由图像特征生成器、文本特征生成器和匹配鉴别器组成；2)以CLIP超声视觉语言能力为驱动，采用双生成单判别器工作模式，能够学习特征空间中文本与图像特征的映射，实现图像与文本之间的特征转换与生成；3)提出了自注意力文本特征生成器，该生成器结合了CLIP的图像视觉特征和原始图像特征相结合，并通过自注意力机制对其进行处理以生成文本特征，从而提升图像字幕生成准确性；4)为了使模型适应数据集的更新梯度，引入了双向匹配损失，确保模型更新的方向与真实文本‑图像对的方向一致，在真实文本图像对之间引入约束使得模型能够学习更准确的特征表示。本发明能够利用已有的图像或者文本生成对应的文本或图像，生成与真实图像和文本更接近和语义一致性的模态数据。

技术关键词

特征生成方法生成图像特征文本编码器图像视觉特征错位图像编码器学习特征代表模型更新注意力机制数据参数样本字幕语义

系统为您推荐了相关专利信息

一种病灶感知与领域知识协同的胸部放射报告生成方法

全局视觉特征报告生成方法多头注意力机制实体节点

基于跨模态提示学习的工业零样本异常检测方法及系统

异常检测方法跨模态样本点云损失函数优化

增强多模态大语言模型视觉感知能力的方法、模型和装置

大语言模型多模态对象深度图视觉特征提取

突发事件检测方法、设备及计算机可读介质

突发事件检测方法计算机程序指令数值 YOLOv3模型文本编码器

一种基于扩散模型的车辆重识别数据集生成方法和装置

生成方法模版图像数据车辆重识别技术

一种用于图像和文本双向生成的跨模态双向特征生成方法

站点导航

APP 下载