大型视觉语言模型幻觉减轻方法及装置

AITNT
正文
推荐专利
大型视觉语言模型幻觉减轻方法及装置
申请号:CN202511172128
申请日期:2025-08-21
公开号:CN120781883A
公开日期:2025-10-14
类型:发明专利
摘要
本发明属于人工智能与多模态大模型的技术领域,具体涉及大型视觉语言模型幻觉减轻方法及装置。所述方法包括:获取原始图像的完整视觉令牌及文本提示的文本令牌,将其连接共同输入大语言模型解码器;基于跨模态动态采样策略计算文本令牌与所有视觉令牌的注意力分数矩阵,以采样关键视觉令牌;获取原始图像的分类令牌,基于分类令牌和完整视觉令牌中各视觉令牌的注意力得分,以筛选显著视觉令牌;对显著视觉令牌和关键视觉令牌进行自适应注意力增强,通过对比解码策略,从视觉信息增强的logits分布中减去纯文本输入的logits分布影响,以获得最终的目标文本输出。本发明旨在减轻大型视觉语言模型中的幻觉问题。
技术关键词
令牌 视觉 文本 大语言模型 解码器 跨模态 图像 矩阵 策略 机器可读存储介质 存储器存储指令 多头注意力机制 采样模块 索引 动态 电子设备
系统为您推荐了相关专利信息
1
一种除草机器人自动避障方法
自动避障方法 除草机器人 避障路径 运动特征 风险评估模型
2
一种基于机器陪聊服务的用户心理健康评估方法、系统、介质及处理器
心理健康评估方法 机器人聊天 数据 强度 心理健康评估系统
3
虚假宣传检测模型的训练方法、虚假宣传检测方法和相关设备
大语言模型 文本 数据获取模块 训练装置 标签
4
一种基于激光与视觉融合的高空大范围真实场景重建方法
场景重建方法 点云地图 彩色点云 可见光相机 偏移误差
5
基于时空先验模型的高保真手术场景快速重建方法及系统
手术场景 闭环反馈机制 运动估计 动态更新 腹腔镜手术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号