摘要
本申请提供了一种大语言模型的推理方法和装置、设备及存储介质,适用于金融科技领域、人工智能领域。方法包括:获取原始大语言模型以及原始大语言模型的多个推理单元;针对每一推理单元,根据推理单元的多个权重参数构建压缩编码树,并通过压缩编码树对权重参数进行参数压缩,生成压缩比特流;将压缩比特流划分为多个压缩比特片段,并针对每一压缩比特片段,计算其中首个完整编码的起始比特偏移量,得到偏移数组;响应于获取到目标推理任务,针对每一推理单元,根据对应的偏移数组对压缩比特流进行解码,还原得到多个线性权重矩阵;利用多个线性权重矩阵执行目标推理任务。本申请能够实现大语言模型高效压缩的同时,减小大语言模型的性能损失。
技术关键词
压缩比特流
大语言模型
推理方法
编码
线性
矩阵
参数
指数
推理装置
可读存储介质
元素
解码模块
电子设备
处理器
内存
符号
存储器
计算机
系统为您推荐了相关专利信息
脉冲神经网络模型
无人水下航行器
决策方法
脉冲编码器
脉冲编解码器