摘要
本发明公开了一种基于视觉内容注意力头的多模态模型编码加速方法,本发明的方法包括为输入图片的每个字符匹配图像中的文字区域;根据多模态模型视觉编码的方式确定文字区域对应的视觉令牌,以基于视觉令牌在注意力得分矩阵中的值得到视觉注意力头得分;根据视觉注意力头得分为每个注意力头分配不同的缓存预算,以得到对应注意力头的缓存结果。本发明提高多模态模型的推理速度,效压缩了视觉内容的编码长度,进一步提高多模态模型的推理速度并降低缓存开销。
技术关键词
注意力
编码加速方法
视觉
多模态
图像
令牌
可执行程序代码
光学字符识别
非临时性计算机可读存储介质
键值
矩阵
加速系统
文本
图片
列表
模块
处理器
计算机设备
存储器
系统为您推荐了相关专利信息
集成控制器
集成模块
控制继电器
电源管理芯片
车身电器
车辆运行数据
大语言模型
能耗预测方法
行程
文本
自定义模型
工业相机
光学字符识别
图像处理
模板