一种用于图像和文本双向生成的跨模态双向特征生成方法

AITNT
正文
推荐专利
一种用于图像和文本双向生成的跨模态双向特征生成方法
申请号:CN202510325349
申请日期:2025-03-19
公开号:CN120181144A
公开日期:2025-06-20
类型:发明专利
摘要
本发明公开了一种用于图像和文本双向生成的跨模态双向特征生成方法。包括:1)一种新颖的跨模态图像和文本双向特征生成方法,该方法的网络模型由图像特征生成器、文本特征生成器和匹配鉴别器组成;2)以CLIP超声视觉语言能力为驱动,采用双生成单判别器工作模式,能够学习特征空间中文本与图像特征的映射,实现图像与文本之间的特征转换与生成;3)提出了自注意力文本特征生成器,该生成器结合了CLIP的图像视觉特征和原始图像特征相结合,并通过自注意力机制对其进行处理以生成文本特征,从而提升图像字幕生成准确性;4)为了使模型适应数据集的更新梯度,引入了双向匹配损失,确保模型更新的方向与真实文本‑图像对的方向一致,在真实文本图像对之间引入约束使得模型能够学习更准确的特征表示。本发明能够利用已有的图像或者文本生成对应的文本或图像,生成与真实图像和文本更接近和语义一致性的模态数据。
技术关键词
特征生成方法 生成图像特征 文本编码器 图像视觉特征 错位 图像编码器 学习特征 代表 模型更新 注意力机制 数据 参数 样本 字幕 语义
系统为您推荐了相关专利信息
1
一种病灶感知与领域知识协同的胸部放射报告生成方法
全局视觉特征 报告生成方法 多头注意力机制 实体 节点
2
基于跨模态提示学习的工业零样本异常检测方法及系统
异常检测方法 跨模态 样本 点云 损失函数优化
3
增强多模态大语言模型视觉感知能力的方法、模型和装置
大语言模型 多模态 对象 深度图 视觉特征提取
4
突发事件检测方法、设备及计算机可读介质
突发事件检测方法 计算机程序指令 数值 YOLOv3模型 文本编码器
5
一种基于扩散模型的车辆重识别数据集生成方法和装置
生成方法 模版 图像 数据 车辆重识别技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号