多模态大语言模型的物体幻觉缓解方法及装置

正文

推荐专利

申请号：CN202510825981

申请日期：2025-06-19

公开号：CN120766093A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种多模态大语言模型的物体幻觉缓解方法及装置，其中，该方法包括将图片和描述指令输入到大型视觉语言模型进行分析，以生成图片对应的候选描述集；提取候选描述集中每个候选描述的物体名词，以得到物体集合；获取条件指令，并根据条件指令计算物体集合中每个物体名词对应的条件概率，以得到每个物体名词对应的置信度；根据每个物体名词对应的置信度得到图片对应的最终描述；由此，通过减少大型视觉语言模型对语言先验的过度依赖，从而有效缓解图像描述任务中的物体幻觉问题。

技术关键词

大语言模型物体图片多模态指令视觉处理器采样模块计算机设备可读存储介质程序存储器图像

系统为您推荐了相关专利信息

一种芯片封装体封装方法、芯片封装体及电网配置方法

芯片封装体电网配置方法封装芯片功能模块封装方法

一种基于AI聊天的加盟商预约方法、系统及计算机程序

预约方法订单大语言模型聊天技术自然语言

溯源数据处理方法、装置、计算机设备及存储介质

溯源数据处理方法金融标识溯源数据库计算机可读指令

生成图像的评估方法、系统、图像生成系统

图像处理工具图像评估工具组合服务端计算机执行指令

图像检测方法、装置、车辆和计算机程序产品

图像检测方法可见光图像畸变参数深度学习模型坐标

多模态大语言模型的物体幻觉缓解方法及装置

站点导航

APP 下载