一种基于解码引导的大语言模型多模态推理方法和装置

正文

推荐专利

申请号：CN202510620717

申请日期：2025-05-14

公开号：CN120633830A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供了一种基于解码引导的大语言模型多模态推理方法和装置，属于自然语言处理领域，该方法包括：基于目标问题及对应的目标图像生成图片描述，并根据图片描述将目标问题解构为子问题集合；遍历子问题集合，采用集束搜索解码算法生成回答，得到对应于每个子问题的多个候选子答案，计算置信度，确定置信度最高的候选子答案为子问题对应的子答案；基于子问题‑子答案对构建多模态推理提示，输入至大语言模型进行推理，得到推理答案。这样，缓解了多模态大模型的错误累积，增强了大模型推理时对有误视觉信息的鲁棒性，保障了视觉信息的准确性，有效提升最终的推理效果，无需人力构建训练数据集，大大降低了推理学习的成本。

技术关键词

多模态推理方法答案大语言模型图片解码算法序列规划集束推理装置图像处理器自然语言计算机设备可读存储介质视觉存储器鲁棒性模块

系统为您推荐了相关专利信息

高精度定位支撑的高安全性场景驱动决策控制一体化自动驾驶系统

自动驾驶系统数据安全监测智能网联汽车云端平台

一种家用低噪音蜗壳的智能检测方法及系统

数字孪生模型智能检测方法蜗壳深度学习模型振动特征

基于多模态机器学习的二次交流回路绝缘监视方法及系统

多模态机器学习绝缘监视方法局部线性嵌入算法分析信息系统支持向量机算法

基于伪点云特征优化的相机多模态融合3D目标检测方法

点云特征多模态特征融合图像相机解码器

基于边缘计算的纸制品包装缺陷实时检测系统

实时检测系统纸制品包装压电驱动微定位平台深度强化学习

一种基于解码引导的大语言模型多模态推理方法和装置

站点导航

APP 下载