摘要
本发明公开了一种运行大语言模型的信息处理装置。为降低矩阵乘法给人工智能系统所带来的高昂计算成本,本发明信息处理装置包括若干数据处理子模块,至少一个数据处理子模块包括:Token混合器,包括RNN结构,其中所述RNN结构中的权重矩阵中的权重值取自‑1、0、1,或者取自‑1、1;通道混合器,是门控线性单元,且门控线性单元中的权重矩阵中的权重值取自‑1、0、1,或者取自‑1、1;所述Token混合器的输入和输出相加,获得第一结果,所述通道混合器的输入和输出相加,获得第二结果,且所述第一结果用于获得所述通道混合器的输入。本发明可消除矩阵乘法,降低计算成本且维持相当的性能表现,并表现出更陡峭的尺度定律。本发明适于人工智能领域。
技术关键词
信息处理装置
混合器
子模块
线性单元
归一化模块
大语言模型
矩阵
通道
人工智能系统
编码模块
信息处理方法
计算机程序产品
序列
指令
声波
可读存储介质
文本
处理器
图像
系统为您推荐了相关专利信息
硬件描述语言
检查规则
模块接口
面向对象数据结构
抽象语法树
光伏发电功率
分布式光伏发电
神经网络模型
光伏发电数据
负荷