摘要
本发明公开了一种长上下文下的大模型芯片预填充阶段推理优化方法,所述推理优化方法包括如下步骤:步骤一、对预填充阶段的输入数据和模型参数动态进行切片;步骤二、依次并行加载和计算QKV、self‑attention、attention_project、FFN模块,在所述attention_project和所述FFN模块的加载计算后进行残差连接处理;步骤三、完成整个推理计算。本发明还公开了实现上述推理优化方法的推理优化系统,及相应的应用,具有广泛应用场景。
技术关键词
切片
多头注意力机制
前馈神经网络
静态随机存取存储器
时间片
队列
投影模块
执行矩阵乘法
硬件系统
阶段
输出模块
数据存储
分支
元素
芯片
系统为您推荐了相关专利信息
漏洞检测方法
卷积神经网络模块
序列
判断源代码
数据
网络节点
虚拟网络
网络切片创建
资源约束条件
传输路径
打印平台
打印设备
打印方法
清洗剂
骨髓间充质干细胞