基于自适应动态注意力干预的视觉语言模型幻觉抑制方法

AITNT
正文
推荐专利
基于自适应动态注意力干预的视觉语言模型幻觉抑制方法
申请号:CN202510460972
申请日期:2025-04-14
公开号:CN120430402A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于自适应动态注意力干预的视觉语言模型幻觉抑制方法,用于减少视觉语言模型生成错误关联信息的问题。方法包括:获取文本输入、视觉输入及历史响应,初始化注意力累积向量;在语言模型逐层计算过程中,动态调整未归一化注意力矩阵,增强视觉敏感注意力头的权重,并在深层网络进行视觉Token剪枝,以优化跨模态信息交互;最终基于调整后的注意力机制生成输出Token,循环迭代直至生成完整响应。本发明采用一种将自适应注意力头修改以纠正文本偏差与基于视觉注意力汇聚的Token剪枝相结合的方法,显著提升了模型在多模态任务中的表现,有效缓解了因语言模态主导推理过程而导致的幻觉现象。
技术关键词
矩阵 多模态 文本 剪枝策略 动态 图像编码器 元素 跨模态 多层感知机 视觉特征 注意力机制 序列 输出模块 索引 偏差 代表 定义
系统为您推荐了相关专利信息
1
一种生成森林火灾烟雾数据的方法及装置
烟雾 森林场景 数据 图像采集模块 深度检测网络
2
模型推理方法、装置、系统、存储介质及程序产品
推理方法 矩阵 分块 物理 计算机可执行指令
3
基于多模态行为感知的健康状态预测方法及系统
健康状态预测方法 定位模块 多模态 数据 运动状态参数
4
一种柔性超表面、基于柔性超表面的动态全息复用方法
超表面 圆偏振光 全息图 柔性 基底
5
一种基于HTML5 Canvas的图像处理系统及方法
图像处理系统 自动标记 图像处理方法 视频流 对象跟踪
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号