摘要
本申请实施例提供一种模型推理方法、计算机程序产品及芯片。运行高请求量模型的芯片在计算得到卸载文本序列中的新词元的QKV后,可以发送给运行低请求量模型的芯片,运行低请求量模型的芯片即可以基于存储的卸载文本序列中历史词元的键值缓存和新词元的QKV,计算得到卸载文本序列对应的注意力结果,然后将计算得到的注意力结果返回给运行高请求量模型的芯片,以便执行后续计算。从而可以提高运行低请求量模型的芯片的资源利用率和系统的整体效率,并且由于只有需传输卸载文本序列的QKV张量和注意力计算结果,通信带来的额外开销较低,可以大大提高多模型服务平台整体的资源利用率。
技术关键词
文本
注意力
芯片
序列
新词
键值
推理方法
计算机程序产品
多模型
处理器
内存
PC机
存储器
资源
指令
队列
动态
系统为您推荐了相关专利信息
时钟设计
拓扑图
静态时序分析
表达式
信号到达时间
监测地质灾害
合成孔径雷达影像
时空聚类分析
地形特征提取
地质灾害风险评估
金刚石基片
偏振分光镜
宽带增透膜
偏振分光膜
金属化
散热液冷装置
三明治结构
散热底座
芯片封装
金刚石