一种提升多模态大模型细粒度识别性能的检索增强方法

正文

推荐专利

申请号：CN202511014952

申请日期：2025-07-23

公开号：CN120953566A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开一种提升多模态大模型细粒度识别性能的检索增强方法，充分利用多模态大模型的生成能力，直接基于模型对输入图像的理解生成对应的子类别文本标签。然而，由于现有多模态大模型在视觉细节感知方面仍存在一定局限性，因此进一步提出针对特定领域，构建小型且高质量的外部细粒度视觉‑语言知识库。在推理过程中，借助通用的强大视觉检索器，从该知识库中检索与当前查询图像相关的多模态知识信息，并用于增强多模态大模型的输入提示，从而更有效地引导大模型生成准确的子类别标签。该方法不仅保留了大模型在通用任务中的强大能力，同时通过引入结构化外部知识，有效弥补了其在细粒度辨识任务中的不足。

技术关键词

语言知识库多模态标签图像特征编码样本视觉特征提取细粒度分类多视角计算机设备可读存储介质分类策略判别特征文本检索图像聚类算法

系统为您推荐了相关专利信息

一种基于标准孔定位的孔板对位算法

横向偏移量孔定位孔板非线性方程组托盘

基于人工智能的教育数据安全应急响应与恢复系统及方法

网络安全态势评估 BP神经网络模型数据安全恢复方法网络异常检测

一种用于异常图像分割的无分割器训练数据集生成方法

分割器图像分割生成方法计算机软件产品基准

基于多模态征象识别的胎盘植入评估系统及其构建方法、构建装置

特征提取单元植入评估系统注意力多模态计算机程序指令

基于模型分析的癌症数据同步检测及分类方法

生物标志物数据同步概率分布方差分类方法多模态

一种提升多模态大模型细粒度识别性能的检索增强方法

站点导航

APP 下载