摘要
本发明提供一种图文检索方法、装置、设备、存储介质及程序产品,应用于计算机视觉技术领域。该方法包括:获取图像描述文本,并基于所述图像描述文本确定候选图像集合;将所述候选图像集合中的候选图像划分为多个类簇,并确定每个类簇的代表图像;根据所述代表图像生成N个场景问题,并通过与用户交互问答的形式确定所述N个场景问题的场景答案;基于所述场景问题、所述场景答案以及所述图像描述文本生成场景图;基于所述场景图、所述场景问题、所述场景答案以及所述图像描述文本进行相似度检索,得到目标图像;其中,N为大于0的整数。
技术关键词
图文检索方法
图像
文本
答案
生成场景
代表
非暂态计算机可读存储介质
大语言模型
计算机视觉技术
字幕
处理器
检索装置
格式
计算机程序产品
模块
聚类算法
存储器
电子设备
系统为您推荐了相关专利信息
电力负荷预测系统
数据
分解特征
小波滤波器
高频特征
金融
大语言模型
多模态特征
融合特征
深度学习模型
像素测量方法
更新方法
图像
单像素成像技术
差分测量方法