模型推理方法、计算机程序产品及芯片

正文

推荐专利

模型推理方法、计算机程序产品及芯片

申请号：CN202510838413

申请日期：2025-06-20

公开号：CN120764672A

公开日期：2025-10-10

类型：发明专利

摘要

本申请实施例提供一种模型推理方法、计算机程序产品及芯片。运行高请求量模型的芯片在计算得到卸载文本序列中的新词元的QKV后，可以发送给运行低请求量模型的芯片，运行低请求量模型的芯片即可以基于存储的卸载文本序列中历史词元的键值缓存和新词元的QKV，计算得到卸载文本序列对应的注意力结果，然后将计算得到的注意力结果返回给运行高请求量模型的芯片，以便执行后续计算。从而可以提高运行低请求量模型的芯片的资源利用率和系统的整体效率，并且由于只有需传输卸载文本序列的QKV张量和注意力计算结果，通信带来的额外开销较低，可以大大提高多模型服务平台整体的资源利用率。

技术关键词

文本注意力芯片序列新词键值推理方法计算机程序产品多模型处理器内存 PC机存储器资源指令队列动态

系统为您推荐了相关专利信息

一种基于Multi-Point CTS的芯片时钟设计优化方法

时钟设计拓扑图静态时序分析表达式信号到达时间

风扇装置及计算设备

风扇装置电压开关元件风扇模块底壳罩壳

一种基于卫星遥感智能监测地质灾害的方法

监测地质灾害合成孔径雷达影像时空聚类分析地形特征提取地质灾害风险评估

一种偏振分光镜及其制备方法和应用

金刚石基片偏振分光镜宽带增透膜偏振分光膜金属化

一种具有三明治结构的芯片封装散热液冷装置

散热液冷装置三明治结构散热底座芯片封装金刚石

模型推理方法、计算机程序产品及芯片

站点导航

APP 下载