摘要
本申请公开了一种模型预训练方法、装置、设备及存储介质。所述方法包括:针对待训练的因果语言模型,固定所述因果语言模型的编码器参数,并对所述因果语言模型的词嵌入层进行训练;响应于完成对所述词嵌入层的训练,在所述因果语言模型的注意力模块中设置适配器权重,并对所述词嵌入层、所述因果语言模型的头部、以及所述适配器权重进行联合训练,得到训练后的因果语言模型;其中,对所述词嵌入层的训练以及所述联合训练分别采用中文数据集。本申请提供的方法显著减少了模型训练所需的显存成本,使之能在单张民用级显卡上完成实施,在保证中文语言模型性能的同时,保证了训练的便捷和效率。
技术关键词
预训练方法
局部注意力机制
编码器参数
适配器
模块
模型预训练
解码器
处理器
数据
可读存储介质
处理单元
存储器
控制单元
显卡
电子设备
指令
计算机
系统为您推荐了相关专利信息
熏蒸治疗仪
多模态
文丘里效应
温度压力传感器
手持控制终端
基板管理控制器
开关模块
输入输出系统
芯片
端口
数据传输通路
数据传输方法
处理器
计算机程序代码
模式
障碍物
车辆轨迹生成方法
加速度
计算机可读指令
计算机程序指令
蜂窝无线接入网
自由双工
联合优化方法
量子遗传算法
博弈算法