一种基于视觉内容注意力头的多模态模型编码加速方法

正文

推荐专利

申请号：CN202510434888

申请日期：2025-04-08

公开号：CN120431586A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于视觉内容注意力头的多模态模型编码加速方法，本发明的方法包括为输入图片的每个字符匹配图像中的文字区域；根据多模态模型视觉编码的方式确定文字区域对应的视觉令牌，以基于视觉令牌在注意力得分矩阵中的值得到视觉注意力头得分；根据视觉注意力头得分为每个注意力头分配不同的缓存预算，以得到对应注意力头的缓存结果。本发明提高多模态模型的推理速度，效压缩了视觉内容的编码长度，进一步提高多模态模型的推理速度并降低缓存开销。

技术关键词

注意力编码加速方法视觉多模态图像令牌可执行程序代码光学字符识别非临时性计算机可读存储介质键值矩阵加速系统文本图片列表模块处理器计算机设备存储器

系统为您推荐了相关专利信息

一种智能域控系统及车辆

集成控制器集成模块控制继电器电源管理芯片车身电器

能耗预测方法、装置、电子设备、存储介质及程序产品

车辆运行数据大语言模型能耗预测方法行程文本

企业舆情监测处理方法、装置、计算机设备和存储介质

话题档案库注意力机制统计算法企业

基于DeepSeek的种植体周围骨缺损识别方法及系统

种植体识别方法时空融合特征颜色视频

一种工业相机模板应用的适配方法、装置、设备及介质

自定义模型工业相机光学字符识别图像处理模板

一种基于视觉内容注意力头的多模态模型编码加速方法

站点导航

APP 下载