大型视觉语言模型幻觉减轻方法及装置

正文

推荐专利

大型视觉语言模型幻觉减轻方法及装置

申请号：CN202511172128

申请日期：2025-08-21

公开号：CN120781883A

公开日期：2025-10-14

类型：发明专利

摘要

本发明属于人工智能与多模态大模型的技术领域，具体涉及大型视觉语言模型幻觉减轻方法及装置。所述方法包括：获取原始图像的完整视觉令牌及文本提示的文本令牌，将其连接共同输入大语言模型解码器；基于跨模态动态采样策略计算文本令牌与所有视觉令牌的注意力分数矩阵，以采样关键视觉令牌；获取原始图像的分类令牌，基于分类令牌和完整视觉令牌中各视觉令牌的注意力得分，以筛选显著视觉令牌；对显著视觉令牌和关键视觉令牌进行自适应注意力增强，通过对比解码策略，从视觉信息增强的logits分布中减去纯文本输入的logits分布影响，以获得最终的目标文本输出。本发明旨在减轻大型视觉语言模型中的幻觉问题。

技术关键词

令牌视觉文本大语言模型解码器跨模态图像矩阵策略机器可读存储介质存储器存储指令多头注意力机制采样模块索引动态电子设备

系统为您推荐了相关专利信息

一种除草机器人自动避障方法

自动避障方法除草机器人避障路径运动特征风险评估模型

一种基于机器陪聊服务的用户心理健康评估方法、系统、介质及处理器

心理健康评估方法机器人聊天数据强度心理健康评估系统

虚假宣传检测模型的训练方法、虚假宣传检测方法和相关设备

大语言模型文本数据获取模块训练装置标签

一种基于激光与视觉融合的高空大范围真实场景重建方法

场景重建方法点云地图彩色点云可见光相机偏移误差

基于时空先验模型的高保真手术场景快速重建方法及系统

手术场景闭环反馈机制运动估计动态更新腹腔镜手术

大型视觉语言模型幻觉减轻方法及装置

站点导航

APP 下载