摘要
本发明公开了一种用于图像和文本双向生成的跨模态双向特征生成方法。包括:1)一种新颖的跨模态图像和文本双向特征生成方法,该方法的网络模型由图像特征生成器、文本特征生成器和匹配鉴别器组成;2)以CLIP超声视觉语言能力为驱动,采用双生成单判别器工作模式,能够学习特征空间中文本与图像特征的映射,实现图像与文本之间的特征转换与生成;3)提出了自注意力文本特征生成器,该生成器结合了CLIP的图像视觉特征和原始图像特征相结合,并通过自注意力机制对其进行处理以生成文本特征,从而提升图像字幕生成准确性;4)为了使模型适应数据集的更新梯度,引入了双向匹配损失,确保模型更新的方向与真实文本‑图像对的方向一致,在真实文本图像对之间引入约束使得模型能够学习更准确的特征表示。本发明能够利用已有的图像或者文本生成对应的文本或图像,生成与真实图像和文本更接近和语义一致性的模态数据。
技术关键词
特征生成方法
生成图像特征
文本编码器
图像视觉特征
错位
图像编码器
学习特征
代表
模型更新
注意力机制
数据
参数
样本
字幕
语义
系统为您推荐了相关专利信息
全局视觉特征
报告生成方法
多头注意力机制
实体
节点
突发事件检测方法
计算机程序指令
数值
YOLOv3模型
文本编码器