摘要
本发明公开了一种结合机器学习和投机采样的大模型推理加速方法及系统,其中方法包括:根据检索出的本地知识构建n‑gram语言模型;n‑gram语言模型推理阶段根据给定文字token,预测下一个token在词表中的概率分布,并采样预测下一个token;基于构建的n‑gram模型和大模型,实现投机采样算法,加速大模型推理。与当前的主流方法相比,本发明生成的内容相比较于现有投机采样算法所使用的近似小模型,更加可靠,其计算量少且减少了内存访问的需求,速度更快。本发明还进一步分别将改进的投机采样算法应用于transformers库和推理框架vLLM,推理速度获得进一步提升。
技术关键词
加速系统
算法
存储器
处理器
尺寸
框架
内存
速度
文本
数据
序列
阶段
模式
参数
系统为您推荐了相关专利信息
激光雷达
避障方法
直升机
DBSCAN聚类算法
时间偏移估计
大语言模型
拼写纠错方法
输入中文
模板
生成提示词