一种模型预训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510473426

申请日期：2025-04-15

公开号：CN120087501A

公开日期：2025-06-03

类型：发明专利

摘要

本申请公开了一种模型预训练方法、装置、设备及存储介质。所述方法包括：针对待训练的因果语言模型，固定所述因果语言模型的编码器参数，并对所述因果语言模型的词嵌入层进行训练；响应于完成对所述词嵌入层的训练，在所述因果语言模型的注意力模块中设置适配器权重，并对所述词嵌入层、所述因果语言模型的头部、以及所述适配器权重进行联合训练，得到训练后的因果语言模型；其中，对所述词嵌入层的训练以及所述联合训练分别采用中文数据集。本申请提供的方法显著减少了模型训练所需的显存成本，使之能在单张民用级显卡上完成实施，在保证中文语言模型性能的同时，保证了训练的便捷和效率。

技术关键词

预训练方法局部注意力机制编码器参数适配器模块模型预训练解码器处理器数据可读存储介质处理单元存储器控制单元显卡电子设备指令计算机

系统为您推荐了相关专利信息

一种多模态精准调控的盆腔熏蒸治疗仪及其使用方法

熏蒸治疗仪多模态文丘里效应温度压力传感器手持控制终端

服务器

基板管理控制器开关模块输入输出系统芯片端口

基于双通道的片内数据传输方法、系统、终端、介质及程序产品

数据传输通路数据传输方法处理器计算机程序代码模式

一种自动驾驶车辆轨迹生成方法、装置、设备及存储介质

障碍物车辆轨迹生成方法加速度计算机可读指令计算机程序指令

网络辅助自由双工无蜂窝无线接入网的用户关联及模式选择联合优化方法

蜂窝无线接入网自由双工联合优化方法量子遗传算法博弈算法

一种模型预训练方法、装置、设备及存储介质

站点导航

APP 下载