摘要
本发明公开了一种基于可训练残差连接与双尺度卷积Transformer的大语言模型的训练方法、装置、计算机设备及可读存储介质,包括:首先获取基于多层Transformer架构的基础模型,其各层含自注意力与前馈网络且嵌入双尺度卷积模块,输出融合后作为该层输出,各层输入输出间配置可训练权重矩阵调整残差连接强度。获取预处理样本文档构建训练集,基于此对基础模型训练至预设条件,得到融合可训练残差连接与双尺度卷积的大语言模型,可提升模型性能与泛化能力。
技术关键词
卷积模块
前馈神经网络
解码器
计算机设备
构建训练集
序列
非线性
基础
可读存储介质
索引
多头注意力机制
ReLU函数
自然语言
分块
矩阵
多尺度
文本
系统为您推荐了相关专利信息
宠物食物
宠物喂食器
运动视频片段
关键帧
运动检测
模糊控制方法
模糊控制规则
散热风机
模糊隶属度函数
模糊推理
线性混合效应
时间段
健康数据处理系统
淋巴细胞
对象
高光谱遥感影像
深度网络模型
联合注意力机制
样本
三元组损失函数
裂缝特征
三维点云数据
统计方法
卷积神经网络提取
多头注意力机制