摘要
本发明公开了一种基于自适应动态注意力干预的视觉语言模型幻觉抑制方法,用于减少视觉语言模型生成错误关联信息的问题。方法包括:获取文本输入、视觉输入及历史响应,初始化注意力累积向量;在语言模型逐层计算过程中,动态调整未归一化注意力矩阵,增强视觉敏感注意力头的权重,并在深层网络进行视觉Token剪枝,以优化跨模态信息交互;最终基于调整后的注意力机制生成输出Token,循环迭代直至生成完整响应。本发明采用一种将自适应注意力头修改以纠正文本偏差与基于视觉注意力汇聚的Token剪枝相结合的方法,显著提升了模型在多模态任务中的表现,有效缓解了因语言模态主导推理过程而导致的幻觉现象。
技术关键词
矩阵
多模态
文本
剪枝策略
动态
图像编码器
元素
跨模态
多层感知机
视觉特征
注意力机制
序列
输出模块
索引
偏差
代表
定义
系统为您推荐了相关专利信息
健康状态预测方法
定位模块
多模态
数据
运动状态参数
图像处理系统
自动标记
图像处理方法
视频流
对象跟踪