基于层级分组注意力的大语言模型加速方法、装置、设备及介质

正文

推荐专利

申请号：CN202411964485

申请日期：2024-12-30

公开号：CN119940433A

公开日期：2025-05-06

类型：发明专利

摘要

本发明公开了一种基于层级分组注意力的大语言模型加速方法、装置、设备及介质，其中方法包括以下步骤：在大语言模型的推理过程中，将输入序列进行分组处理；对分组后的序列使用组内注意力机制，得到组内注意力；对分组后的序列使用组间注意力机制，得到组间注意力；对组内注意力和组间注意力进行层级化注意力融合，获得当前注意力模块的最终结果。本发明能够大幅降低大语言模型基础模块注意力计算复杂度，大幅减少大语言模型处理超长序列文本所需的显存和推理耗时，从而极大提升推理效率。本发明可广泛应用于自然语言技术领域。

技术关键词

模型加速方法注意力机制序列层级矩阵大语言模型自然语言技术模块加速装置电子设备程序处理器指令数值可读存储介质存储器复杂度表达式

系统为您推荐了相关专利信息

基于数据驱动的光伏阵列等效模拟方法、系统及存储介质

光伏阵列 BiLSTM模型指数预测模型训练实时数据

结合硬件的网络安全通信规划与设计方法及系统

中转设备时间变化特征通信规划异常事件发送设备

一种建筑工程材料强度检测方法及装置

混凝土试块材料强度检测方法力学传感器智能检测传感器应力

基于二次动态调整的人工智能光伏功率预测系统及方法

光伏功率预测系统光伏功率预测方法预测残差转移概率矩阵集合经验模态分解

一种功率芯片的低功耗控制方法及系统

低功耗控制方法功率器件功率芯片信号占空比低功耗控制电路

基于层级分组注意力的大语言模型加速方法、装置、设备及介质

站点导航

APP 下载