一种基于级联和推测解码策略的大语言模型推理优化方法

正文

推荐专利

申请号：CN202411116100

申请日期：2024-08-14

公开号：CN119047579A

公开日期：2024-11-29

类型：发明专利

摘要

本发明涉及语言模型推理技术领域，公开了一种基于级联和推测解码策略的大语言模型推理优化方法，包括：S1：将用户的提示词输入给小语言模型家族，使用级联策略快速生成若干草稿文本令牌；S2：将当前的文本序列输入到大预言模型，使用推测解码策略进行验证，截断掉被拒绝的文本token并生成大语言模型自己的一个文本输出token；S3：循环步骤S1和步骤S2直到所述大预言模型生成了表示生成任务结束的<end>标签。本发明引入了级联策略和推测解码策略，并结合这两种策略的优势，设计了一种新的推测级联技术，以提高推理速度和效率。级联策略通过级别不同、参数大小不同的多个语言模型组合，推测解码策略则通过提前推断并生成部分结果来减少等待时间。

技术关键词

令牌策略文本解码动态调整机制序列大语言模型家族级联技术推理技术置信度阈值标签参数度量理论阶段频率速度

系统为您推荐了相关专利信息

基于风电机组SCADA数据分析的静态偏航误差判别方法

偏航误差判别方法风速风电机组控制策略 DBSCAN聚类算法

脑MRI图像合成方法和装置、电子设备、存储介质

图像特征向量样本文本特征向量纹理特征噪声

一种带药精准配送方法及系统

订单数据管理模块监控模块医疗系统智能终端数据采集

一种风机控制策略的自适应优化方法

设备健康状态控制策略构建深度神经网络粒子群优化算法实时数据

一种算力共享的高铁轨旁设备诊断方法及系统

设备诊断方法轨旁设备高速铁路系统铁轨设备诊断系统

一种基于级联和推测解码策略的大语言模型推理优化方法

站点导航

APP 下载