大语言模型辅助的检索增强视觉问答方法、装置

正文

推荐专利

申请号：CN202410761024

申请日期：2024-06-13

公开号：CN118733846A

公开日期：2024-10-01

类型：发明专利

摘要

本发明提供一种大语言模型辅助的检索增强视觉问答方法，包括：获取待查询图像，以及所述待查询图像对应的待回答问题；对所述待查询图像和所述待回答问题进行实体匹配处理，得到所述待查询图像中与所述待回答问题相关的目标实体信息；基于所述目标实体信息对所述待查询图像进行视觉定位处理，得到所述待查询图像中与所述待回答问题相关联的感兴趣区域；基于所述待回答问题、所述待查询图像和所述感兴趣区域，从知识库中检索得到所述待回答问题的答案。通过对待查询图像中与问题直接相关的感兴趣区域进行准确定位，能够有效提升知识检索结果的准确性。

技术关键词

视觉问答方法大语言模型答案图像视觉特征感兴趣实体融合特征多模态特征提取网络文本非暂态计算机可读存储介质语义视觉定位模块视觉特征提取特征融合网络图像特征提取处理器问答装置

系统为您推荐了相关专利信息

基于多线程与动态上下文理解的融合智能语音交互系统

智能语音交互系统动态上下文多线程语音输入模块语音识别模块

基于双目视觉的分叉小车到位状态识别及调整方法及系统

小车特征点动态切换控制动态感兴趣区域双目视觉模块

一种变压器状态诊断方法、系统、计算机程序产品

状态诊断方法变压器大语言模型计算机程序产品编码器

一种道路场景的生成方法、装置、电子设备及存储介质

自然语言大语言模型道路位置信息道路路况信息场景

基于大语言模型的微调语料质量提升方法、装置及设备

大语言模型文本模板指令推理电子设备

大语言模型辅助的检索增强视觉问答方法、装置

站点导航

APP 下载