大模型推理加速的方法、装置及设备

AITNT
正文
推荐专利
大模型推理加速的方法、装置及设备
申请号:CN202511478239
申请日期:2025-10-16
公开号:CN120952186A
公开日期:2025-11-14
类型:发明专利
摘要
本说明书提供了大模型推理加速的方法、装置及设备,计算服务设备配置有多个计算节点,并存储有前缀索引结构,用于指示token序列前缀与存有其缓存计算结果的计算节点之间的映射关系;该方法包括执行全局调度机制,基于推理请求的token序列查询所述前缀索引结构进行前缀匹配,以确定一个或多个候选计算节点,以及根据所述实时负载状态从所述候选计算节点中选择一目标计算节点;执行本地调度机制,根据所述推理请求在所述目标计算节点上的前缀匹配程度,为所述推理请求分配一执行优先级进行调度处理;加载与匹配前缀对应的缓存计算结果,并仅对所述推理请求的非前缀部分、调用大模型以执行推理计算。
技术关键词
节点 服务设备 索引 机制 语义向量 序列 队列 加速装置 字典树 处理器 指令 分层 关系 注意力 存储器 周期
系统为您推荐了相关专利信息
1
产品车间的调度方案生成方法、装置、设备及存储介质
节点 车间 机台 参数 生成方法
2
智能电表的固件升级方法、装置、设备及存储介质
固件升级方法 智能电表通信 计划 服务系统 重传机制
3
一种基于代码图融合分析和图匹配网络的智能合约漏洞检测方法
匹配网络 节点 语法特征 智能合约漏洞 语句
4
一种人工电源网络过载保护系统和方法
人工电源网络 过载保护系统 神经网络单元 参数 数据采集模块
5
一种基于多种算法优化金银花快速干燥工艺的设计
干燥工艺 建立BP神经网络模型 金银花 遗传算法优化 BP模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号