基于可训练残差连接与双尺度卷积Transformer的大语言模型的训练方法、装置、计算机设备及可读存储介质

AITNT
正文
推荐专利
基于可训练残差连接与双尺度卷积Transformer的大语言模型的训练方法、装置、计算机设备及可读存储介质
申请号:CN202411849409
申请日期:2024-12-16
公开号:CN119940416B
公开日期:2025-08-26
类型:发明专利
摘要
本发明公开了一种基于可训练残差连接与双尺度卷积Transformer的大语言模型的训练方法、装置、计算机设备及可读存储介质,包括:首先获取基于多层Transformer架构的基础模型,其各层含自注意力与前馈网络且嵌入双尺度卷积模块,输出融合后作为该层输出,各层输入输出间配置可训练权重矩阵调整残差连接强度。获取预处理样本文档构建训练集,基于此对基础模型训练至预设条件,得到融合可训练残差连接与双尺度卷积的大语言模型,可提升模型性能与泛化能力。
技术关键词
卷积模块 前馈神经网络 解码器 计算机设备 构建训练集 序列 非线性 基础 可读存储介质 索引 多头注意力机制 ReLU函数 自然语言 分块 矩阵 多尺度 文本
系统为您推荐了相关专利信息
1
宠物食物添加方法、装置、宠物喂食器及存储介质
宠物食物 宠物喂食器 运动视频片段 关键帧 运动检测
2
一种液冷机模糊控制方法、系统、设备及存储介质
模糊控制方法 模糊控制规则 散热风机 模糊隶属度函数 模糊推理
3
情绪健康数据处理系统、方法和计算机设备
线性混合效应 时间段 健康数据处理系统 淋巴细胞 对象
4
基于潜在特征对抗的高光谱遥感影像异常目标探测方法
高光谱遥感影像 深度网络模型 联合注意力机制 样本 三元组损失函数
5
基于双流Transformer和图卷积神经网络的区域裂缝特征智能识别和多维统计方法
裂缝特征 三维点云数据 统计方法 卷积神经网络提取 多头注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号