大语言模型引导的全景图像描述增强视觉问答方法和系统

AITNT
正文
推荐专利
大语言模型引导的全景图像描述增强视觉问答方法和系统
申请号:CN202411664741
申请日期:2024-11-20
公开号:CN119597885A
公开日期:2025-03-11
类型:发明专利
摘要
本发明公开了一种大语言模型引导的全景图像描述增强视觉问答方法和系统,属于多模态信息处理领域。针对现有方法缺乏对图像关键细节准确描述而导致问答系统生成答案错误的问题,本发明设计了一个包括多层次图像信息获取模块、约束增强的全景图像描述生成模块和视觉问答模块的系统。多层次图像信息获取模块:有效利用视觉语言模型从图像中提取丰富的视觉信息。约束增强的全景图像描述生成模块:结合大语言模型的推理能力生成详细的全景图像描述,同时引入上下文约束示例和约束指令以减轻大语言模型可能产生的幻觉问题。视觉问答模块:从图像、问题和全景图像描述三个维度选择问答样例作为上下文学习样例,有效指导大语言模型在回答问题时的应用。
技术关键词
大语言模型 视觉问答方法 图像 多层次 文本编码器 问答系统 模块 答案 信息处理 多模态 指令 样本 基础 参数
系统为您推荐了相关专利信息
1
用于数字人直播的封面生成方法、装置、设备及介质
人体关键点 直播封面 封面生成方法 关节 坐标
2
一种可实现智能问答交互的便捷式存储设备
展示设备 存储设备 操作系统信息 生成个性化语音 答案
3
利用物理信息嵌入生成对抗网络的城市街区风环境快速预测方法
深度生成模型 生成对抗网络 监测点 物理 多通道
4
一种无人机单目相机位姿图优化方法
单目相机 高斯金字塔 高斯模糊图像 特征点 无人机姿态
5
一种尿液试纸采集装置及其检测方法
尿液试纸 图像采集模块 运输模块 加热模块 加热平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号