摘要
本发明提供了一种基于解码引导的大语言模型多模态推理方法和装置,属于自然语言处理领域,该方法包括:基于目标问题及对应的目标图像生成图片描述,并根据图片描述将目标问题解构为子问题集合;遍历子问题集合,采用集束搜索解码算法生成回答,得到对应于每个子问题的多个候选子答案,计算置信度,确定置信度最高的候选子答案为子问题对应的子答案;基于子问题‑子答案对构建多模态推理提示,输入至大语言模型进行推理,得到推理答案。这样,缓解了多模态大模型的错误累积,增强了大模型推理时对有误视觉信息的鲁棒性,保障了视觉信息的准确性,有效提升最终的推理效果,无需人力构建训练数据集,大大降低了推理学习的成本。
技术关键词
多模态
推理方法
答案
大语言模型
图片
解码算法
序列
规划
集束
推理装置
图像
处理器
自然语言
计算机设备
可读存储介质
视觉
存储器
鲁棒性
模块
系统为您推荐了相关专利信息
自动驾驶系统
数据安全监测
智能网联汽车
云端
平台
数字孪生模型
智能检测方法
蜗壳
深度学习模型
振动特征
多模态机器学习
绝缘监视方法
局部线性嵌入算法
分析信息系统
支持向量机算法
实时检测系统
纸制品
包装
压电驱动微定位平台
深度强化学习