摘要
本发明公开了一种基于多模态智能排序的方法,所述方法利用多模态模型对查询图片进行编码,生成查询图片向量;利用所述查询图片向量到向量库查询相似图片;通过多模态模型Qwen2‑VL生成查询图片的语义文本向量,以及结果图片的语义文本向量;通过智能排序算法分别计算结果图片与查询图片的图片相似度及文本相似度,综合图片相似度与语义相似度对结果图片进行综合排序。本发明提取图片中的重点语义信息,去除图片中的不相关干扰项,将图像的语义信息视为重要权重进行排序优化,让整体排序更聚焦在核心内容,提高了检索结果的相关性和准确性。
技术关键词
图片
多模态
文本
语义
生成方式
排序算法
注意力
计算机程序产品
可读存储介质
存储计算机程序
像素
编码
矩阵
彩色图像
处理器
数值
对象
数据
系统为您推荐了相关专利信息
人机验证方法
统计特征
水印方法
人机验证装置
答案
图像生成模型
分支
图像生成方法
文本
特征提取模块
动作预测模型
动作预测方法
图像特征信息
视频流
大语言模型
终端设备
界面
设备控制方法
记忆
计算机程序代码