摘要
本申请公开了一种基于大模型的场景检索方法及终端,获取特征数据集,特征数据集中包括多个训练样本,每一训练样本包括描述文本数据以及与描述文本数据对应的场景图像;将场景图像输入大语言模型得到与场景图像对应的多个问题‑答案文本;提取场景图像对应的图像特征向量以及描述文本和问题‑答案文本对应的文本特征向量;根据描述文本数据、图像特征向量以及文本特征向量训练预设的多模态匹配模型,得到训练完成的多模态匹配模型;将数据库中的目标图像逐一输入多模态匹配模型得到每一目标图像对应的文本信息;接收待定图像,得到与待定图像对应的描述信息;根据描述信息与文本信息的相似度完成检索;实现高准确度的多模态检索过程。
技术关键词
场景检索方法
文本特征向量
图像特征向量
图像特征提取模型
答案
大语言模型
矩阵
视觉
人工智能模型
生成数据集
多模态
网络
解码器
图像编码
系统为您推荐了相关专利信息
智能问答系统
大语言模型
答案
数据存储系统
数据采集模块
文本特征向量
图像特征向量
约束技术
动态更新
动态纹理