基于可训练残差连接与双尺度卷积Transformer的大语言模型的训练方法、装置、计算机设备及可读存储介质

正文

推荐专利

申请号：CN202411849409

申请日期：2024-12-16

公开号：CN119940416B

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种基于可训练残差连接与双尺度卷积Transformer的大语言模型的训练方法、装置、计算机设备及可读存储介质，包括：首先获取基于多层Transformer架构的基础模型，其各层含自注意力与前馈网络且嵌入双尺度卷积模块，输出融合后作为该层输出，各层输入输出间配置可训练权重矩阵调整残差连接强度。获取预处理样本文档构建训练集，基于此对基础模型训练至预设条件，得到融合可训练残差连接与双尺度卷积的大语言模型，可提升模型性能与泛化能力。

技术关键词

卷积模块前馈神经网络解码器计算机设备构建训练集序列非线性基础可读存储介质索引多头注意力机制 ReLU函数自然语言分块矩阵多尺度文本

系统为您推荐了相关专利信息

宠物食物添加方法、装置、宠物喂食器及存储介质

宠物食物宠物喂食器运动视频片段关键帧运动检测

一种液冷机模糊控制方法、系统、设备及存储介质

模糊控制方法模糊控制规则散热风机模糊隶属度函数模糊推理

情绪健康数据处理系统、方法和计算机设备

线性混合效应时间段健康数据处理系统淋巴细胞对象

基于潜在特征对抗的高光谱遥感影像异常目标探测方法

高光谱遥感影像深度网络模型联合注意力机制样本三元组损失函数

基于双流Transformer和图卷积神经网络的区域裂缝特征智能识别和多维统计方法

裂缝特征三维点云数据统计方法卷积神经网络提取多头注意力机制

基于可训练残差连接与双尺度卷积Transformer的大语言模型的训练方法、装置、计算机设备及可读存储介质

站点导航

APP 下载