摘要
本发明属于人工智能与多模态大模型的技术领域,具体涉及大型视觉语言模型幻觉减轻方法及装置。所述方法包括:获取原始图像的完整视觉令牌及文本提示的文本令牌,将其连接共同输入大语言模型解码器;基于跨模态动态采样策略计算文本令牌与所有视觉令牌的注意力分数矩阵,以采样关键视觉令牌;获取原始图像的分类令牌,基于分类令牌和完整视觉令牌中各视觉令牌的注意力得分,以筛选显著视觉令牌;对显著视觉令牌和关键视觉令牌进行自适应注意力增强,通过对比解码策略,从视觉信息增强的logits分布中减去纯文本输入的logits分布影响,以获得最终的目标文本输出。本发明旨在减轻大型视觉语言模型中的幻觉问题。
技术关键词
令牌
视觉
文本
大语言模型
解码器
跨模态
图像
矩阵
策略
机器可读存储介质
存储器存储指令
多头注意力机制
采样模块
索引
动态
电子设备
系统为您推荐了相关专利信息
自动避障方法
除草机器人
避障路径
运动特征
风险评估模型
心理健康评估方法
机器人聊天
数据
强度
心理健康评估系统
场景重建方法
点云地图
彩色点云
可见光相机
偏移误差
手术场景
闭环反馈机制
运动估计
动态更新
腹腔镜手术