摘要
本申请实施例提供了一种适用于大模型部署的针对Transformer网络结构的改进方法及相关设备,使得大模型在进行训练和推理时更易于部署,且训练收敛速度更快。本申请实施例方法包括:基于时序空洞卷积块替换Transformer模块中的全连接层,确定Transformer模块中全连接层的初始配置参数,并根据初始配置参数确定时序空洞卷积块的目标配置参数;基于用户配置文件配置时序空洞卷积块中所有卷积层的卷积核大小和空洞配置参数;得到时序空洞卷积块的时序空洞卷积块层数,使得时序空洞卷积块最后一层的每个输出对应的第一层的接收域能覆盖到输入序列的整个时序长度;根据模型参数值及原有全连接层中间层维度,设置时序空洞卷积块中所有卷积层的输入通道数量和输出通道数量。
技术关键词
空洞
时序
网络模型结构
中间层
参数
计算机设备
模块
通道
数值
中央处理器
无线网络接口
存储器
输入输出接口
网络结构
指数
数据
算法
序列
指令
电源