基于自适应动态注意力干预的视觉语言模型幻觉抑制方法

正文

推荐专利

申请号：CN202510460972

申请日期：2025-04-14

公开号：CN120430402A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于自适应动态注意力干预的视觉语言模型幻觉抑制方法，用于减少视觉语言模型生成错误关联信息的问题。方法包括：获取文本输入、视觉输入及历史响应，初始化注意力累积向量；在语言模型逐层计算过程中，动态调整未归一化注意力矩阵，增强视觉敏感注意力头的权重，并在深层网络进行视觉Token剪枝，以优化跨模态信息交互；最终基于调整后的注意力机制生成输出Token，循环迭代直至生成完整响应。本发明采用一种将自适应注意力头修改以纠正文本偏差与基于视觉注意力汇聚的Token剪枝相结合的方法，显著提升了模型在多模态任务中的表现，有效缓解了因语言模态主导推理过程而导致的幻觉现象。

技术关键词

矩阵多模态文本剪枝策略动态图像编码器元素跨模态多层感知机视觉特征注意力机制序列输出模块索引偏差代表定义

系统为您推荐了相关专利信息

一种生成森林火灾烟雾数据的方法及装置

烟雾森林场景数据图像采集模块深度检测网络

模型推理方法、装置、系统、存储介质及程序产品

推理方法矩阵分块物理计算机可执行指令

基于多模态行为感知的健康状态预测方法及系统

健康状态预测方法定位模块多模态数据运动状态参数

一种柔性超表面、基于柔性超表面的动态全息复用方法

超表面圆偏振光全息图柔性基底

一种基于HTML5 Canvas的图像处理系统及方法

图像处理系统自动标记图像处理方法视频流对象跟踪

基于自适应动态注意力干预的视觉语言模型幻觉抑制方法

站点导航

APP 下载