大语言模型常识知识注入的细粒度服饰图像检索方法及装置

正文

推荐专利

申请号：CN202510671212

申请日期：2025-05-23

公开号：CN120196777B

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了一种大语言模型常识知识注入的细粒度服饰图像检索方法及装置。该方法首先通过图像编码器提取输入图像的细粒度视觉特征，并结合低秩适配器进行优化，以提高图像补丁级别的表示能力。接着，通过预训练的大语言模型生成属性增强的常识性知识上下文，丰富图像属性表示，从而帮助模型理解和推理开放场景中未知的属性信息。本发明引入了可切换模态提示和插补机制，保证在属性或文本缺失时能够动态补充代理嵌入。在检索过程中，通过属性引导的跨模态注意力机制，基于图像特征和属性增强上下文之间的关系进行细粒度图像内容匹配。本发明通过多模态特征对齐和优化，提高了在开放世界场景中进行服饰图像检索的准确性和鲁棒性。

技术关键词

图像检索方法大语言模型图像编码器服饰补丁图像检索装置视觉特征文本编码器模块多模态特征适配器计算机程序产品处理器注意力机制跨模态三元组可读存储介质

大语言模型常识知识注入的细粒度服饰图像检索方法及装置

站点导航

APP 下载