摘要
本发明提供了一种用于提升视觉语言模型组合推理的视觉特征生成方法,属于跨模态语义增强及图像特征学习技术领域,包括构造数据集,获取正面描述与负面描述之间的语义偏移生成差异向量;通过所述差异向量生成视觉扰动,引导图像特征修改,获取与文本的负面描述保持语义一致性的视觉特征;将生成的视觉负面特征应用于视觉‑语言模型的对比学习,优化模型在组合推理任务中的表现。优点在于:能够通过文本正负样本的语义偏移引导生成对视觉特征的扰动向量,充分挖掘文本和图像之间的互补信息,提高了视觉负面特征生成的质量;在评估过程中更有效地处理复杂的语义信息,最终提升模型的在处理组合推理任务中能力。
技术关键词
视觉特征
文本
生成方法
语义
图像
特征计算方法
三元组
嵌入式视觉
实体
推理系统
数据采集模块
样本
跨模态
正面
场景
代表
系统为您推荐了相关专利信息
音频
识别风险
音视频采集器
图像识别模型
漏气风险
图像拼接方法
图像特征点
深度学习网络
掩膜
双线性插值算法
表面质量检测方法
汽车连接器
高斯分布模型
预处理器
图像处理单元
大语言模型
数据
文本
非暂态计算机可读存储介质
电子设备