大语言模型辅助的检索增强视觉问答方法、装置

AITNT
正文
推荐专利
大语言模型辅助的检索增强视觉问答方法、装置
申请号:CN202410761024
申请日期:2024-06-13
公开号:CN118733846A
公开日期:2024-10-01
类型:发明专利
摘要
本发明提供一种大语言模型辅助的检索增强视觉问答方法,包括:获取待查询图像,以及所述待查询图像对应的待回答问题;对所述待查询图像和所述待回答问题进行实体匹配处理,得到所述待查询图像中与所述待回答问题相关的目标实体信息;基于所述目标实体信息对所述待查询图像进行视觉定位处理,得到所述待查询图像中与所述待回答问题相关联的感兴趣区域;基于所述待回答问题、所述待查询图像和所述感兴趣区域,从知识库中检索得到所述待回答问题的答案。通过对待查询图像中与问题直接相关的感兴趣区域进行准确定位,能够有效提升知识检索结果的准确性。
技术关键词
视觉问答方法 大语言模型 答案 图像视觉特征 感兴趣 实体 融合特征 多模态 特征提取网络 文本 非暂态计算机可读存储介质 语义 视觉定位模块 视觉特征提取 特征融合网络 图像特征提取 处理器 问答装置
系统为您推荐了相关专利信息
1
基于多线程与动态上下文理解的融合智能语音交互系统
智能语音交互系统 动态上下文 多线程 语音输入模块 语音识别模块
2
基于双目视觉的分叉小车到位状态识别及调整方法及系统
小车 特征点 动态切换控制 动态感兴趣区域 双目视觉模块
3
一种变压器状态诊断方法、系统、计算机程序产品
状态诊断方法 变压器 大语言模型 计算机程序产品 编码器
4
一种道路场景的生成方法、装置、电子设备及存储介质
自然语言 大语言模型 道路位置信息 道路路况信息 场景
5
基于大语言模型的微调语料质量提升方法、装置及设备
大语言模型 文本 模板 指令推理 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号