摘要
本发明公开了一种基于层级分组注意力的大语言模型加速方法、装置、设备及介质,其中方法包括以下步骤:在大语言模型的推理过程中,将输入序列进行分组处理;对分组后的序列使用组内注意力机制,得到组内注意力;对分组后的序列使用组间注意力机制,得到组间注意力;对组内注意力和组间注意力进行层级化注意力融合,获得当前注意力模块的最终结果。本发明能够大幅降低大语言模型基础模块注意力计算复杂度,大幅减少大语言模型处理超长序列文本所需的显存和推理耗时,从而极大提升推理效率。本发明可广泛应用于自然语言技术领域。
技术关键词
模型加速方法
注意力机制
序列
层级
矩阵
大语言模型
自然语言技术
模块
加速装置
电子设备
程序
处理器
指令
数值
可读存储介质
存储器
复杂度
表达式
系统为您推荐了相关专利信息
光伏阵列
BiLSTM模型
指数
预测模型训练
实时数据
中转设备
时间变化特征
通信规划
异常事件
发送设备
混凝土试块
材料强度检测方法
力学传感器
智能检测传感器
应力
光伏功率预测系统
光伏功率预测方法
预测残差
转移概率矩阵
集合经验模态分解
低功耗控制方法
功率器件
功率芯片
信号占空比
低功耗控制电路