摘要
本发明实施例公开了一种基于主动视觉搜索的图像问答方法、装置、设备及介质,涉及金融、医疗、保险及银行等领域中的图像问答技术领域。方法包括:获取输入图像以及对应的文本问题,将输入图像压缩为压缩图像,并将压缩图像以及文本问题输入到预训练的视觉问答模型中,以由视觉问答模型判断是否能够基于压缩图像回答文本问题;将目标对象以及输入图像输入到预训练的视觉搜索模型中,基于视觉搜索模型的识别结果从输入图像中确定目标对象的图像信息;将图像信息、压缩图像以及文本问题输入到视觉问答模型中,并接收视觉问答模型输出的文本问题的答案信息。本发明能够提高图像问答的准确性。
技术关键词
视觉问答模型
图像问答方法
文本
图像压缩
图像块
大语言模型
对象
答案
计算机设备
问答技术
坐标
问答装置
投影模块
分辨率
处理器
可读存储介质
存储器
样本
系统为您推荐了相关专利信息
语言模型训练方法
大语言模型
度量
标签文本
问答模型