摘要
本发明提供一种大语言模型辅助的检索增强视觉问答方法,包括:获取待查询图像,以及所述待查询图像对应的待回答问题;对所述待查询图像和所述待回答问题进行实体匹配处理,得到所述待查询图像中与所述待回答问题相关的目标实体信息;基于所述目标实体信息对所述待查询图像进行视觉定位处理,得到所述待查询图像中与所述待回答问题相关联的感兴趣区域;基于所述待回答问题、所述待查询图像和所述感兴趣区域,从知识库中检索得到所述待回答问题的答案。通过对待查询图像中与问题直接相关的感兴趣区域进行准确定位,能够有效提升知识检索结果的准确性。
技术关键词
视觉问答方法
大语言模型
答案
图像视觉特征
感兴趣
实体
融合特征
多模态
特征提取网络
文本
非暂态计算机可读存储介质
语义
视觉定位模块
视觉特征提取
特征融合网络
图像特征提取
处理器
问答装置
系统为您推荐了相关专利信息
智能语音交互系统
动态上下文
多线程
语音输入模块
语音识别模块
小车
特征点
动态切换控制
动态感兴趣区域
双目视觉模块
状态诊断方法
变压器
大语言模型
计算机程序产品
编码器
自然语言
大语言模型
道路位置信息
道路路况信息
场景