摘要
基于跨语言注意力模式的多语言物体幻觉缓解方法,解决了如何缓解在非英语提问下大型视觉语言模型在检测时的多语言物体幻觉问题,属于多模态问答技术领域。本发明包括:识别出在处理不同语言中相同语义提问时,视觉语言模型对于英语和目标语言表现出明显不同行为的跨模态注意力头集合;对同一图像构造英语和目标语言的图像描述查询,并分别输入各自的视觉语言模型中进行推理,获取英语和目标语言下的注意力输出,将它们之间的平均差异作为目标语言的语言迁移向量;在目标语言提问的推理过程中,利用所述语言迁移向量对所述注意力头集合中的注意力头进行干预,使视觉语言模型在非英语提问下的视觉理解能力更接近英语提问。
技术关键词
注意力
英语
视觉
物体
存储设备
模式
分类准确率
掩码矩阵
图像
问答技术
语义
处理器
计算机程序产品
探针
跨模态
多模态
文本
标签
系统为您推荐了相关专利信息
室内定位方法
WiFi设备
随机森林
坐标系
视觉
试纸读数
像素点
pH试纸
图像识别模型
评分方法
图文检索方法
语义协同
交叉注意力机制
语义分割算法
视觉注意力机制