摘要
本发明公开了一种长上下文下的大模型芯片解码阶段推理优化方法,所述推理优化方法包括如下步骤:步骤一、对解码阶段的KV缓存数据和模型参数动态进行切片,用于静态随机存取存储器SRAM调用;步骤二、依次并行加载和计算QKV、self‑attention、attention_project、FFN模块;在所述attention_project和所述FFN模块的加载计算后进行残差连接处理;步骤三、完成整个推理计算。本发明还公开了实现上述推理优化方法的推理优化系统,及相应的应用,具有广泛应用场景。
技术关键词
切片
前馈神经网络
解码
投影模块
硬件系统
多头注意力机制
阶段
矩阵
输出模块
元素
处理器
芯片
动态
数据存储
可读存储介质
存储器
系统为您推荐了相关专利信息
动态量化方法
大语言模型
量化系统
半轴
数量化方法
孤独症谱系障碍
注意力
眼动特征
电信号
脑电特征提取