摘要
本发明涉及人工智能技术领域,特别涉及一种基于语言辅助和特征融合的多尺度图像检索方法及装置。方法包括:通过基于7个结构化问答式提示词对每张图像进行语义理解获得语义理解答案,并将其转换为语言辅助向量;使用主流图像特征提取网络获得图像原始特征;通过FusionModel模型对语言辅助向量进行多头自注意力和自适应最大池化降维处理,并与图像原始特征进行拼接融合;在语义一致性任务的背景下,对融合后的特征进行监督训练,使同类图像特征在特征空间中更接近,异类图像特征更远。本发明通过基于7个结构化问答式提示词生成的文本辅助向量,与图像特征融合,提高图像语义理解能力与特征表达的鲁棒性,从而提升图像检索系统的准确性与泛化能力。
技术关键词
图像检索方法
语义
图像特征提取
大语言模型
注意力
图像检索设备
答案
图像检索装置
计算机可读指令
文本
图像检索系统
特征提取模块
人工智能技术
图片
商标
网络
模板
处理器
纹理