基于多级缓存的大模型推理方法及装置、存储介质、设备

AITNT
正文
推荐专利
基于多级缓存的大模型推理方法及装置、存储介质、设备
申请号:CN202511087597
申请日期:2025-08-04
公开号:CN120996190A
公开日期:2025-11-21
类型:发明专利
摘要
本申请公开了一种基于多级缓存的大模型推理方法及装置、存储介质、设备,该方法包括:接收推理任务,对推理任务进行固定长度的词元序列分割处理,以确定推理任务对应的至少一个词元序列,其中,词元序列中除末尾词元序列之外的其他词元序列的长度为固定长度,末尾词元序列的长度小于或等于固定长度;针对固定长度的词元序列,在显存中查询词元序列对应的目标数据块,若显存中不存在,则在内存中查询词元序列对应的目标数据块,其中,显存中的数据块被逐出显存时被拷贝内存中;若末尾词元序列小于固定长度,则通过大模型,根据目标数据块和末尾词元序列执行推理任务;若末尾词元序列等于固定长度,则通过大模型,根据目标数据块执行推理任务。
技术关键词
序列 内存 拷贝 生成数据块 推理方法 标识 热点 节点 键值 推理装置 处理器 计算机设备 集群 列表 模块 机制
系统为您推荐了相关专利信息
1
针对冠心病重建患者的远程康复监控及管理系统、方法
计划 运动 可穿戴式监测设备 监测模块 管理系统
2
一种用于中长期光伏发电预测方法
光伏发电预测方法 模态分解方法 重构矩阵 状态空间模型 光伏功率预测技术
3
一种向量化模型的文本数据集生成方法及装置
文本段落 参数 生成方法 组合关键词 数据
4
一种互感器宽频检测方法及系统
宽频 互感器 信号发生器 工控机 检测设备
5
一种云计算环境下的智能化资源优化配置方法及系统
资源优化配置方法 资源分配策略 云计算环境 云端 生成资源
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号