基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质

AITNT
正文
推荐专利
基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质
申请号:CN202511348777
申请日期:2025-09-22
公开号:CN120851217A
公开日期:2025-10-28
类型:发明专利
摘要
本申请提供了基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质,涉及计算机技术领域。其中,基于多级缓存机制的大模型推理方法包括:接收原始请求;基于各个实例的键值缓存分布和负载情况,确定原始请求对应的预填充实例和解码实例;通过预填充实例,基于三级缓存机制确定原始请求多个键值缓存块;基于键值缓存块,执行预填充阶段的计算,得到预填充阶段的首个输出标记;通过解码实例,基于预填充阶段的首个输出标记和键值缓存块进行解码阶段的计算,得到原始请求对应的完整输出标记;基于完整输出标记,确定原始请求的推理结果。由此,能够大幅提高了前缀缓存的命中率,有效缓解了负载不均衡的问题。
技术关键词
键值 多级缓存机制 序列 解码 缓冲块 标记 内存 推理方法 阶段 显卡 时延 生成哈希值 编码 异步方式 标识 磁盘 调度器 集群 电子设备
系统为您推荐了相关专利信息
1
基于人工智能的音乐旋律自动生成系统
自动生成系统 模块 音乐 文本特征向量 分层
2
基于图像识别的青花椒质量评估系统及方法
可见光图像 图像预处理技术 动态时间规整算法 时间序列特征 图谱
3
一种防爆电梯控制柜降温装置及温度预测控制方法
防爆电梯控制柜 预测控制方法 降温装置 混合神经网络模型 循环装置
4
一种基于多空间建模与公平性强化学习的群智感知任务调度方法及系统
任务调度方法 多空间 调度算法 机制 蚁群优化
5
一种基于模型耦合的多模态科学实验评估辅助方法及系统
评估辅助方法 流媒体服务器 注意力神经网络 人体关键点 视频序列特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号