摘要
本申请公开一种多任务语言处理模型训练方法、装置及相关设备,该方法包括获取每个任务的训练样本、共享层候选参数和每个特定任务处理层候选参数;基于每个任务的训练样本,确定所述多任务语言处理模型的综合损失;判断综合损失是否达到第一预设值;若否,则基于综合损失更新共享层的候选参数,基于各个任务的损失更新各个特定任务处理层的候选参数,并确定所述多任务语言处理模型更新后的综合损失,直至更新后的综合损失达到第一预设值。本申请中的训练方法,基于综合损失对共享层进行训练,能够在整体提高各个任务的预测准确度,基于各个任务损失对各个特定任务处理层进行训练,能够对各个特定任务处理层进行精准的优化。
技术关键词
多任务
模型训练方法
文本
多头注意力机制
训练装置
参数
模型更新
通用特征
模块
非线性
计算机
可读存储介质
处理器
指令
系统为您推荐了相关专利信息
问答方法
BERT模型
神经网络结构
文本
问答系统
情感分类模型
空调器
深度神经网络
语音特征
数据
注意力
协方差矩阵
样本
模型构建装置
度度量方法
分类特征
智能分诊方法
交叉注意力机制
医学影像数据
病历