用于提升视觉语言模型组合推理的视觉特征生成方法

AITNT
正文
推荐专利
用于提升视觉语言模型组合推理的视觉特征生成方法
申请号:CN202411504613
申请日期:2024-10-26
公开号:CN119478436A
公开日期:2025-02-18
类型:发明专利
摘要
本发明提供了一种用于提升视觉语言模型组合推理的视觉特征生成方法,属于跨模态语义增强及图像特征学习技术领域,包括构造数据集,获取正面描述与负面描述之间的语义偏移生成差异向量;通过所述差异向量生成视觉扰动,引导图像特征修改,获取与文本的负面描述保持语义一致性的视觉特征;将生成的视觉负面特征应用于视觉‑语言模型的对比学习,优化模型在组合推理任务中的表现。优点在于:能够通过文本正负样本的语义偏移引导生成对视觉特征的扰动向量,充分挖掘文本和图像之间的互补信息,提高了视觉负面特征生成的质量;在评估过程中更有效地处理复杂的语义信息,最终提升模型的在处理组合推理任务中能力。
技术关键词
视觉特征 文本 生成方法 语义 图像 特征计算方法 三元组 嵌入式视觉 实体 推理系统 数据采集模块 样本 跨模态 正面 场景 代表
系统为您推荐了相关专利信息
1
一种声门变化的多模态监测方法、装置、设备及介质
音频 识别风险 音视频采集器 图像识别模型 漏气风险
2
一种基于深度学习的多环境适用的图像拼接方法
图像拼接方法 图像特征点 深度学习网络 掩膜 双线性插值算法
3
一种汽车连接器生产表面质量检测方法
表面质量检测方法 汽车连接器 高斯分布模型 预处理器 图像处理单元
4
基于多源分布式数据的数据湖构建方法及系统
分布式数据源 分布式协同 语义 三元组 关系
5
地球科学大语言模型的训练方法、装置以及电子设备
大语言模型 数据 文本 非暂态计算机可读存储介质 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号