摘要
本发明提供一种基于循环缓存的滑动窗口注意力加速方法及装置,解决了现有技术在滑动窗口注意力机制中内存存储效率较低,进而导致大模型对于序列处理速度慢的问题。基于环形缓存机制对含有滑动窗口注意力的大语言模型进行优化,在提高SWA中K Rcache和V Rcache对内存的利用效率的同时,还提高了K Rcache和V Rcache数据存储的速度,进而提升了整个大语言模型的推理速度。
技术关键词
滑动窗口
索引
大语言模型
环形
矩阵
队列
可读存储介质
缓存机制
加速装置
处理器
注意力机制
解码
阶段
参数
数据存储
存储模块
内存
系统为您推荐了相关专利信息
企业信息处理方法
企业产品信息
大语言模型
页面资源
文档对象模型
视频生成模型
视频帧特征
场景生成方法
随机噪声
样本