用于提升视觉语言模型组合推理的视觉特征生成方法

正文

推荐专利

申请号：CN202411504613

申请日期：2024-10-26

公开号：CN119478436A

公开日期：2025-02-18

类型：发明专利

摘要

本发明提供了一种用于提升视觉语言模型组合推理的视觉特征生成方法，属于跨模态语义增强及图像特征学习技术领域，包括构造数据集，获取正面描述与负面描述之间的语义偏移生成差异向量；通过所述差异向量生成视觉扰动，引导图像特征修改，获取与文本的负面描述保持语义一致性的视觉特征；将生成的视觉负面特征应用于视觉‑语言模型的对比学习，优化模型在组合推理任务中的表现。优点在于：能够通过文本正负样本的语义偏移引导生成对视觉特征的扰动向量，充分挖掘文本和图像之间的互补信息，提高了视觉负面特征生成的质量；在评估过程中更有效地处理复杂的语义信息，最终提升模型的在处理组合推理任务中能力。

技术关键词

视觉特征文本生成方法语义图像特征计算方法三元组嵌入式视觉实体推理系统数据采集模块样本跨模态正面场景代表

系统为您推荐了相关专利信息

一种声门变化的多模态监测方法、装置、设备及介质

音频识别风险音视频采集器图像识别模型漏气风险

一种基于深度学习的多环境适用的图像拼接方法

图像拼接方法图像特征点深度学习网络掩膜双线性插值算法

一种汽车连接器生产表面质量检测方法

表面质量检测方法汽车连接器高斯分布模型预处理器图像处理单元

基于多源分布式数据的数据湖构建方法及系统

分布式数据源分布式协同语义三元组关系

地球科学大语言模型的训练方法、装置以及电子设备

大语言模型数据文本非暂态计算机可读存储介质电子设备

用于提升视觉语言模型组合推理的视觉特征生成方法

站点导航

APP 下载