摘要
本发明公开了一种多模态大语言模型的物体幻觉缓解方法及装置,其中,该方法包括将图片和描述指令输入到大型视觉语言模型进行分析,以生成图片对应的候选描述集;提取候选描述集中每个候选描述的物体名词,以得到物体集合;获取条件指令,并根据条件指令计算物体集合中每个物体名词对应的条件概率,以得到每个物体名词对应的置信度;根据每个物体名词对应的置信度得到图片对应的最终描述;由此,通过减少大型视觉语言模型对语言先验的过度依赖,从而有效缓解图像描述任务中的物体幻觉问题。
技术关键词
大语言模型
物体
图片
多模态
指令
视觉
处理器
采样模块
计算机设备
可读存储介质
程序
存储器
图像
系统为您推荐了相关专利信息
芯片封装体
电网配置方法
封装芯片
功能模块
封装方法
溯源数据处理方法
金融
标识
溯源数据库
计算机可读指令
图像处理工具
图像评估
工具组合
服务端
计算机执行指令
图像检测方法
可见光图像
畸变参数
深度学习模型
坐标