摘要
本发明公开了一种大语言模型引导的全景图像描述增强视觉问答方法和系统,属于多模态信息处理领域。针对现有方法缺乏对图像关键细节准确描述而导致问答系统生成答案错误的问题,本发明设计了一个包括多层次图像信息获取模块、约束增强的全景图像描述生成模块和视觉问答模块的系统。多层次图像信息获取模块:有效利用视觉语言模型从图像中提取丰富的视觉信息。约束增强的全景图像描述生成模块:结合大语言模型的推理能力生成详细的全景图像描述,同时引入上下文约束示例和约束指令以减轻大语言模型可能产生的幻觉问题。视觉问答模块:从图像、问题和全景图像描述三个维度选择问答样例作为上下文学习样例,有效指导大语言模型在回答问题时的应用。
技术关键词
大语言模型
视觉问答方法
图像
多层次
文本编码器
问答系统
模块
答案
信息处理
多模态
指令
样本
基础
参数
系统为您推荐了相关专利信息
展示设备
存储设备
操作系统信息
生成个性化语音
答案
单目相机
高斯金字塔
高斯模糊图像
特征点
无人机姿态
尿液试纸
图像采集模块
运输模块
加热模块
加热平台