摘要
一种视觉大语言模型幻觉现象消除方法,它属于视觉大语言模型处理技术领域。本发明解决了现有幻觉消除方法在推理阶段需要耗费的时间长、需要依赖人工标注数据以及消耗的计算资源大的问题。本发明通过利用模型回答视觉信息的描述状态下的注意力状态增强视觉感知能力,为了使得模型充分的关注输入的视觉信息,通过在推理过程中将描述指令敏感的注意力头输出优化为描述查询的输出,对特定的注意力头施加扰动使得模型重新获得充分的视觉注意力,有效地增强模型的视觉感知能力,并起到利用视觉语言模型固有的细粒度视觉感知能力来提升模型消除幻觉现象的能力的效果,且不需要借助任何额外的训练和工具。本发明方法可以应用于视觉大语言模型处理。
技术关键词
大语言模型
注意力
视觉
消除方法
解码器
编码器
指令
文本
数据
分类准确率
图片
二分类器
依赖人工
图像
参数
阶段