大语言模型引导的全景图像描述增强视觉问答方法和系统

正文

推荐专利

申请号：CN202411664741

申请日期：2024-11-20

公开号：CN119597885A

公开日期：2025-03-11

类型：发明专利

摘要

本发明公开了一种大语言模型引导的全景图像描述增强视觉问答方法和系统，属于多模态信息处理领域。针对现有方法缺乏对图像关键细节准确描述而导致问答系统生成答案错误的问题，本发明设计了一个包括多层次图像信息获取模块、约束增强的全景图像描述生成模块和视觉问答模块的系统。多层次图像信息获取模块：有效利用视觉语言模型从图像中提取丰富的视觉信息。约束增强的全景图像描述生成模块：结合大语言模型的推理能力生成详细的全景图像描述，同时引入上下文约束示例和约束指令以减轻大语言模型可能产生的幻觉问题。视觉问答模块：从图像、问题和全景图像描述三个维度选择问答样例作为上下文学习样例，有效指导大语言模型在回答问题时的应用。

技术关键词

大语言模型视觉问答方法图像多层次文本编码器问答系统模块答案信息处理多模态指令样本基础参数

系统为您推荐了相关专利信息

用于数字人直播的封面生成方法、装置、设备及介质

人体关键点直播封面封面生成方法关节坐标

一种可实现智能问答交互的便捷式存储设备

展示设备存储设备操作系统信息生成个性化语音答案

利用物理信息嵌入生成对抗网络的城市街区风环境快速预测方法

深度生成模型生成对抗网络监测点物理多通道

一种无人机单目相机位姿图优化方法

单目相机高斯金字塔高斯模糊图像特征点无人机姿态

一种尿液试纸采集装置及其检测方法

尿液试纸图像采集模块运输模块加热模块加热平台

大语言模型引导的全景图像描述增强视觉问答方法和系统

站点导航

APP 下载