摘要
本申请提供了一种基于视觉令牌剪枝的多模态大模型无训练推理加速方法和装置,涉及人工智能技术领域,旨在加速多模态大模型的推理速度。该方法包括:将目标图像输入视觉编码器进行多层注意力交互,得到由多个视觉令牌组成的视觉令牌序列,以及多层类令牌对视觉令牌的注意力分数分布;根据所述多层类令牌对视觉令牌的注意力分数分布,确定出类令牌对各个视觉令牌的最终注意力分数,所述最终注意力分数表征视觉令牌的重要度;根据所述类令牌对各个视觉令牌的最终注意力分数,从所述视觉令牌序列中选择出重要度高的多个目标视觉令牌;将所述多个目标视觉令牌和文本提示输入语言模型进行推理,得到推理结果。
技术关键词
令牌
视觉
多层注意力
序列
多模态
文本
输入模块
处理器
人工智能技术
加速装置
计算机程序产品
语义
图像处理
可读存储介质
存储器
电子设备