一种基于视觉内容注意力头的多模态模型编码加速方法

AITNT
正文
推荐专利
一种基于视觉内容注意力头的多模态模型编码加速方法
申请号:CN202510434888
申请日期:2025-04-08
公开号:CN120431586A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于视觉内容注意力头的多模态模型编码加速方法,本发明的方法包括为输入图片的每个字符匹配图像中的文字区域;根据多模态模型视觉编码的方式确定文字区域对应的视觉令牌,以基于视觉令牌在注意力得分矩阵中的值得到视觉注意力头得分;根据视觉注意力头得分为每个注意力头分配不同的缓存预算,以得到对应注意力头的缓存结果。本发明提高多模态模型的推理速度,效压缩了视觉内容的编码长度,进一步提高多模态模型的推理速度并降低缓存开销。
技术关键词
注意力 编码加速方法 视觉 多模态 图像 令牌 可执行程序代码 光学字符识别 非临时性计算机可读存储介质 键值 矩阵 加速系统 文本 图片 列表 模块 处理器 计算机设备 存储器
系统为您推荐了相关专利信息
1
一种智能域控系统及车辆
集成控制器 集成模块 控制继电器 电源管理芯片 车身电器
2
能耗预测方法、装置、电子设备、存储介质及程序产品
车辆运行数据 大语言模型 能耗预测方法 行程 文本
3
企业舆情监测处理方法、装置、计算机设备和存储介质
话题 档案库 注意力机制 统计算法 企业
4
基于DeepSeek的种植体周围骨缺损识别方法及系统
种植体 识别方法 时空融合特征 颜色 视频
5
一种工业相机模板应用的适配方法、装置、设备及介质
自定义模型 工业相机 光学字符识别 图像处理 模板
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号