摘要
本说明书提供了大模型推理加速的方法、装置及设备,计算服务设备配置有多个计算节点,并存储有前缀索引结构,用于指示token序列前缀与存有其缓存计算结果的计算节点之间的映射关系;该方法包括执行全局调度机制,基于推理请求的token序列查询所述前缀索引结构进行前缀匹配,以确定一个或多个候选计算节点,以及根据所述实时负载状态从所述候选计算节点中选择一目标计算节点;执行本地调度机制,根据所述推理请求在所述目标计算节点上的前缀匹配程度,为所述推理请求分配一执行优先级进行调度处理;加载与匹配前缀对应的缓存计算结果,并仅对所述推理请求的非前缀部分、调用大模型以执行推理计算。
技术关键词
节点
服务设备
索引
机制
语义向量
序列
队列
加速装置
字典树
处理器
指令
分层
关系
注意力
存储器
周期
系统为您推荐了相关专利信息
固件升级方法
智能电表通信
计划
服务系统
重传机制
人工电源网络
过载保护系统
神经网络单元
参数
数据采集模块
干燥工艺
建立BP神经网络模型
金银花
遗传算法优化
BP模型