一种结合机器学习和投机采样的大模型推理加速方法及系统

正文

推荐专利

申请号：CN202411110911

申请日期：2024-08-14

公开号：CN118657220B

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种结合机器学习和投机采样的大模型推理加速方法及系统，其中方法包括：根据检索出的本地知识构建n‑gram语言模型；n‑gram语言模型推理阶段根据给定文字token，预测下一个token在词表中的概率分布，并采样预测下一个token；基于构建的n‑gram模型和大模型，实现投机采样算法，加速大模型推理。与当前的主流方法相比，本发明生成的内容相比较于现有投机采样算法所使用的近似小模型，更加可靠，其计算量少且减少了内存访问的需求，速度更快。本发明还进一步分别将改进的投机采样算法应用于transformers库和推理框架vLLM，推理速度获得进一步提升。

技术关键词

加速系统算法存储器处理器尺寸框架内存速度文本数据序列阶段模式参数

系统为您推荐了相关专利信息

一种岩心图像去噪方法、装置及设备

岩心图像去噪模型采样器样本图像去噪方法

矫正策略生成方法、装置、计算机设备及存储介质

矫正模型隐形矫正器形态策略生成方法点云

一种基于4D毫米波雷达和激光雷达的直升机避障方法

激光雷达避障方法直升机 DBSCAN聚类算法时间偏移估计

一种多输入中文拼写纠错方法、系统、电子设备及介质

大语言模型拼写纠错方法输入中文模板生成提示词

一种信道数据的生成方法、装置、电子设备及存储介质

终端天线多径参数信道采集设备列表

一种结合机器学习和投机采样的大模型推理加速方法及系统

站点导航

APP 下载