基于层级分组注意力的大语言模型加速方法、装置、设备及介质

AITNT
正文
推荐专利
基于层级分组注意力的大语言模型加速方法、装置、设备及介质
申请号:CN202411964485
申请日期:2024-12-30
公开号:CN119940433A
公开日期:2025-05-06
类型:发明专利
摘要
本发明公开了一种基于层级分组注意力的大语言模型加速方法、装置、设备及介质,其中方法包括以下步骤:在大语言模型的推理过程中,将输入序列进行分组处理;对分组后的序列使用组内注意力机制,得到组内注意力;对分组后的序列使用组间注意力机制,得到组间注意力;对组内注意力和组间注意力进行层级化注意力融合,获得当前注意力模块的最终结果。本发明能够大幅降低大语言模型基础模块注意力计算复杂度,大幅减少大语言模型处理超长序列文本所需的显存和推理耗时,从而极大提升推理效率。本发明可广泛应用于自然语言技术领域。
技术关键词
模型加速方法 注意力机制 序列 层级 矩阵 大语言模型 自然语言技术 模块 加速装置 电子设备 程序 处理器 指令 数值 可读存储介质 存储器 复杂度 表达式
系统为您推荐了相关专利信息
1
基于数据驱动的光伏阵列等效模拟方法、系统及存储介质
光伏阵列 BiLSTM模型 指数 预测模型训练 实时数据
2
结合硬件的网络安全通信规划与设计方法及系统
中转设备 时间变化特征 通信规划 异常事件 发送设备
3
一种建筑工程材料强度检测方法及装置
混凝土试块 材料强度检测方法 力学传感器 智能检测传感器 应力
4
基于二次动态调整的人工智能光伏功率预测系统及方法
光伏功率预测系统 光伏功率预测方法 预测残差 转移概率矩阵 集合经验模态分解
5
一种功率芯片的低功耗控制方法及系统
低功耗控制方法 功率器件 功率芯片 信号占空比 低功耗控制电路
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号