摘要
本发明公开一种基于多模态大模型的图文智能检索方法,具体包括如下步骤:使用本地图文数据对多模态大模型进行微调,提升垂直领域下图片描述能力;针对所有库图片离线生成文本描述,并通过文本向量化模型生成文本向量并存储到向量数据库中;选取语义重排序模型,对检索到的候选图像和文本进行重新排序,提升图文检索的精确度和质量;根据用户输入的查询文本或图像,通过向量数据库检索出与查询相关的多个候选图像和文本描述,并利用语义重排序模型对候选文本进行重排序,确保最相关的图像及其描述优先返回;在不同场景的测试集上评估图文检索的性能,确定最终向量数据库余弦相似度过滤阈值,确保检索性能与用户体验的平衡。
技术关键词
智能检索方法
文本
排序模型
图文
多模态
语义
图像
图片
离线
场景
矩阵
数据
批量
对象
实体
参数
系统为您推荐了相关专利信息
事件识别方法
训练文本数据
对象
聚类
事件识别装置
网络服务代理方法
网络代理服务器
网络传输协议
虚拟网络设备
网络管理信息