一种长上下文下的大模型芯片解码阶段推理优化方法、系统及应用

AITNT
正文
推荐专利
一种长上下文下的大模型芯片解码阶段推理优化方法、系统及应用
申请号:CN202510178882
申请日期:2025-02-18
公开号:CN120124742A
公开日期:2025-06-10
类型:发明专利
摘要
本发明公开了一种长上下文下的大模型芯片解码阶段推理优化方法,所述推理优化方法包括如下步骤:步骤一、对解码阶段的KV缓存数据和模型参数动态进行切片,用于静态随机存取存储器SRAM调用;步骤二、依次并行加载和计算QKV、self‑attention、attention_project、FFN模块;在所述attention_project和所述FFN模块的加载计算后进行残差连接处理;步骤三、完成整个推理计算。本发明还公开了实现上述推理优化方法的推理优化系统,及相应的应用,具有广泛应用场景。
技术关键词
切片 前馈神经网络 解码 投影模块 硬件系统 多头注意力机制 阶段 矩阵 输出模块 元素 处理器 芯片 动态 数据存储 可读存储介质 存储器
系统为您推荐了相关专利信息
1
基于空间增强通道注意力的频谱地图构建方法
地图构建方法 注意力 解码器 输出特征 编码器
2
一种大语言模型低比特权重和激活值的动态量化方法、系统及应用
动态量化方法 大语言模型 量化系统 半轴 数量化方法
3
多切片数据的处理方法、装置和介质
采样点 切片 矩阵 注意力编码器 生物特征信息
4
基于生成式模型的气象预报降尺度订正方法以及装置
气象预报数据 预训练网络 编码器 样本 订正方法
5
一种孤独症谱系障碍的诊断处理方法及系统
孤独症谱系障碍 注意力 眼动特征 电信号 脑电特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号