摘要
本申请涉及一种基于理解的图片检索方法及装置。本方法包括:利用图片编码器对待检索图片进行处理,输出大语言模型理解所需的图片向量;根据检索场景的需要对大语言模型的答复格式与输入格式进行微调;大语言模型对输入的图片向量进行理解,输出包含图片中的相关要素以及图片的理解语义文本的分析结果;根据图片的理解语义文本对图片中的相关要素进行目标识别,对于识别的目标进行类型识别,然后进行目标匹配;针对匹配的目标,提取对应的图片向量,根据图片的理解文本描述信息判断图片是否异常。本方案先将图片与文本语义进行关联,再通过语义针对图片性质、关键属性、类型进行理解加权,灵活性高,通用性强,可检索的内容更加丰富准确。
技术关键词
大语言模型
图片检索方法
文本理解
语义
编码器
图片检索装置
格式
存储计算机程序
编码向量
输出特征
场景
模块
多模态
网络
视觉
存储器
处理器
系统为您推荐了相关专利信息
数据匹配方法
实体识别模型
矩阵
语义
计算机可读指令
智能检索方法
国际商务
多语言
检索算法
查询意图
模型生成方法
知识库构建方法
模型生成装置
文本
大语言模型