一种多任务语言处理模型训练方法、装置及相关设备

正文

推荐专利

申请号：CN202511095059

申请日期：2025-08-06

公开号：CN120598061A

公开日期：2025-09-05

类型：发明专利

摘要

本申请公开一种多任务语言处理模型训练方法、装置及相关设备，该方法包括获取每个任务的训练样本、共享层候选参数和每个特定任务处理层候选参数；基于每个任务的训练样本，确定所述多任务语言处理模型的综合损失；判断综合损失是否达到第一预设值；若否，则基于综合损失更新共享层的候选参数，基于各个任务的损失更新各个特定任务处理层的候选参数，并确定所述多任务语言处理模型更新后的综合损失，直至更新后的综合损失达到第一预设值。本申请中的训练方法，基于综合损失对共享层进行训练，能够在整体提高各个任务的预测准确度，基于各个任务损失对各个特定任务处理层进行训练，能够对各个特定任务处理层进行精准的优化。

技术关键词

多任务模型训练方法文本多头注意力机制训练装置参数模型更新通用特征模块非线性计算机可读存储介质处理器指令

系统为您推荐了相关专利信息

一种结合ElasticSearch和AI的搜索问答方法及其系统

问答方法 BERT模型神经网络结构文本问答系统

空调器的控制方法、装置、空调器及存储介质

情感分类模型空调器深度神经网络语音特征数据

一种基于大模型的汇报讲稿生成方法、系统、设备及介质

生成方法生成提示词模板格式文本

一种结合因果知识和注意力的可解释性评估方法及装置

注意力协方差矩阵样本模型构建装置度度量方法

基于对比学习与交叉注意力机制的智能分诊方法及系统

分类特征智能分诊方法交叉注意力机制医学影像数据病历

一种多任务语言处理模型训练方法、装置及相关设备

站点导航

APP 下载