摘要
本发明公开了一种基于TTD压缩的多头潜在注意力模型的数据处理方法、系统及终端,所述方法包括:构建大语言模型,通过TTD压缩、分解的方式对大语言模型中的多个线性层进行处理,从而减少了模型中的权重数量,在硬件层面针对TTD压缩后线性层推理的数据流进行针对性优化,从而输出最后的模型推理结果。本发明通过转化为大语言模型中的多头潜在注意力结构,从而减少模型推理时对KV cache的需求,通过减少权重数量,提高模型在边缘设备上的长文本输出能力,后续采用组矢量脉动阵列的计算结构去进行推理过程中的矩阵计算,高效地利用了有限的硬件资源。
技术关键词
注意力模型
数据处理方法
大语言模型
网络结构
脉动阵列架构
数字信号处理器
线性
数据处理程序
矩阵
双倍数据速率内存
SVD分解方法
数据处理系统
结构网络
序列
输入加法器
可读存储介质
上采样
切片
系统为您推荐了相关专利信息
代码缺陷
大语言模型
代码转换
电子信息技术技术
计算机设备
大语言模型
社交媒体平台
标签
电子设备本体
生成关键词