摘要
本发明涉及语言模型推理技术领域,公开了一种基于级联和推测解码策略的大语言模型推理优化方法,包括:S1:将用户的提示词输入给小语言模型家族,使用级联策略快速生成若干草稿文本令牌;S2:将当前的文本序列输入到大预言模型,使用推测解码策略进行验证,截断掉被拒绝的文本token并生成大语言模型自己的一个文本输出token;S3:循环步骤S1和步骤S2直到所述大预言模型生成了表示生成任务结束的<end>标签。本发明引入了级联策略和推测解码策略,并结合这两种策略的优势,设计了一种新的推测级联技术,以提高推理速度和效率。级联策略通过级别不同、参数大小不同的多个语言模型组合,推测解码策略则通过提前推断并生成部分结果来减少等待时间。
技术关键词
令牌
策略
文本
解码
动态调整机制
序列
大语言模型
家族
级联技术
推理技术
置信度阈值
标签
参数
度量
理论
阶段
频率
速度
系统为您推荐了相关专利信息
偏航误差
判别方法
风速
风电机组控制策略
DBSCAN聚类算法
订单
数据管理模块
监控模块
医疗系统
智能终端数据采集
设备健康状态
控制策略
构建深度神经网络
粒子群优化算法
实时数据
设备诊断方法
轨旁设备
高速铁路系统
铁轨
设备诊断系统