摘要
本发明公开一种基于自适应激活缩放适配的大语言模型多任务学习方法,属于大语言模型技术领域。所述方法包括:构建模型;初始化各任务k的可学习激活缩放适配向量;构造多任务联合微调训练数据集;利用多任务联合微调训练数据集进行LoRA模块参数、多任务融合缩放网络参数和可学习激活缩放适配向量的优化,以生成训练后的模型。本发明缓解不同任务之间的跷跷板问题,并实现使用有限的资源高效地多任务学习和优化。
技术关键词
注意力
多任务学习方法
线性变换矩阵
前馈神经网络
计算机程序指令
因子
自然语言
基座
参数
模型训练模块
可读存储介质
大语言模型
学习系统
数据
非线性
电子设备
跷跷板
系统为您推荐了相关专利信息
审核方法
设备状态数据
风险预测模型
动态时间规整算法
物联网传感器
语音信号传输方法
深度学习架构
语音编解码器
语音编码器
多头注意力机制