摘要
本申请公开了一种基于大语言模型的图像跨模态检索方法、设备及介质,方法包括:通过BLIP模型生成原始图像对应的文本描述,将文本描述转换为对应的图像向量;建立图像向量和原始图像之间的映射关系,将映射关系以及图像向量存储至预设的向量数据库;获取用户提交的图像查询描述,通过预设的语言大模型,对图像查询描述进行优化,并将优化后的图像查询描述转换为对应的查询向量;根据向量数据库中各图像向量与查询向量之间的第一相似度,确定图像查询描述对应的若干待选图像;计算图像查询描述和若干待选图像之间的匹配度,根据匹配度,从若干待选图像中筛选出满足图像查询描述的目标图像。
技术关键词
大语言模型
文本
计算机可执行指令
指定图像格式
检索设备
关系
解码器
注意力机制
处理器通信
跨模态
比率
存储器
介质
像素
编码
系统为您推荐了相关专利信息
可再生能源
能源需求量
能耗预测模型
管控方法
热能
大语言模型
非结构化文本处理
元数据处理方法
样本
计算机设备