基于语言辅助和特征融合的多尺度图像检索方法及装置

正文

推荐专利

申请号：CN202510769530

申请日期：2025-06-10

公开号：CN120744156A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能技术领域，特别涉及一种基于语言辅助和特征融合的多尺度图像检索方法及装置。方法包括：通过基于7个结构化问答式提示词对每张图像进行语义理解获得语义理解答案，并将其转换为语言辅助向量；使用主流图像特征提取网络获得图像原始特征；通过FusionModel模型对语言辅助向量进行多头自注意力和自适应最大池化降维处理，并与图像原始特征进行拼接融合；在语义一致性任务的背景下，对融合后的特征进行监督训练，使同类图像特征在特征空间中更接近，异类图像特征更远。本发明通过基于7个结构化问答式提示词生成的文本辅助向量，与图像特征融合，提高图像语义理解能力与特征表达的鲁棒性，从而提升图像检索系统的准确性与泛化能力。

技术关键词

图像检索方法语义图像特征提取大语言模型注意力图像检索设备答案图像检索装置计算机可读指令文本图像检索系统特征提取模块人工智能技术图片商标网络模板处理器纹理

基于语言辅助和特征融合的多尺度图像检索方法及装置

站点导航

APP 下载