摘要
本发明提供一种基于LLM推理和集成的图像检索方法及装置,该方法包括:对参考图像对应的密集字幕进行LLM推理,得到编辑字幕;从图像数据集中提取出视觉特征,从密集字幕中提取出参考字幕特征,从编辑字幕中提取出编辑字幕特征;计算参考字幕特征、编辑字幕特征和视觉特征之间的多个特征相似度;根据多个特征相似度之间的相似度减少量计算出集成字幕特征,并根据视觉特征和集成字幕特征之间的相似度从图像数据集搜索出目标检索图像。本发明所述方法实现了在编辑字幕中整合互补信息并过滤掉噪声,结合语义相关性得分来计算集成字幕特征权重设计图像检索特征,提升了特征的表征能力,进而提高了图像检索的准确率。
技术关键词
字幕
图像检索方法
视觉特征
检索图像
编辑
非暂态计算机可读存储介质
自然语言
Softmax函数
图像检索装置
过滤掉噪声
语义
处理器
数据
计算机程序产品
存储器
电子设备
模块
核心
模板
系统为您推荐了相关专利信息
智能决策模型
算法
构建卷积神经网络
计算机设备
图像校正