摘要
本申请提供一种大语言模型性能优化方法、装置、存储介质及电子设备,涉及自然语言处理领域。电子设备通过大语言模型对已生成文本进行处理,得到传输至主解码头的隐藏状态信息;其中,大语言模型还包括与主解码头并行的多个从解码头,多个从解码头之间的预设排列顺序表征解码结果之间的排列顺序;然后,将每个从解码头的序列信息与隐藏状态信息结合,得到每个从解码头的待解码信息;最后,根据从每条待解码信息解码出的候选词集,得到已生成文本后续的最佳预测文本。如此,通过将每个从解码头的序列信息与隐藏状态信息结合后,通过多个从解码头并行对各自的待解码信息进行解码,从而能够在保持推理精度的同时显著提升大语言模型的推理速度。
技术关键词
性能优化方法
大语言模型
解码信息
码头
文本
掩码矩阵
序列
电子设备
位置映射
性能优化装置
冗余
注意力机制
元素
解码模块
自然语言
处理器
语义