摘要
本发明涉及语言模型推理技术领域,公开了一种基于级联和推测解码策略的大语言模型推理优化方法,包括:S1:将用户的提示词输入给小语言模型家族,使用级联策略快速生成若干草稿文本令牌;S2:将当前的文本序列输入到大预言模型,使用推测解码策略进行验证,截断掉被拒绝的文本token并生成大语言模型自己的一个文本输出token;S3:循环步骤S1和步骤S2直到所述大预言模型生成了表示生成任务结束的<end>标签。本发明引入了级联策略和推测解码策略,并结合这两种策略的优势,设计了一种新的推测级联技术,以提高推理速度和效率。级联策略通过级别不同、参数大小不同的多个语言模型组合,推测解码策略则通过提前推断并生成部分结果来减少等待时间。
技术关键词
令牌
策略
文本
解码
动态调整机制
序列
大语言模型
家族
级联技术
推理技术
置信度阈值
标签
参数
度量
理论
阶段
频率
速度
系统为您推荐了相关专利信息
探伤设备
探伤方法
超分辨率重建方法
生成深度图像
数据并行处理
任务分配优化方法
多策略
综合效能
中继节点
进化算法
并联机器人
学习控制方法
深度Q网络
控制策略
关节
桥梁拉索护套
病害检测方法
语义分割模型
图像采集模块
构建卷积神经网络