一种多任务语言处理模型训练方法、装置及相关设备

AITNT
正文
推荐专利
一种多任务语言处理模型训练方法、装置及相关设备
申请号:CN202511095059
申请日期:2025-08-06
公开号:CN120598061A
公开日期:2025-09-05
类型:发明专利
摘要
本申请公开一种多任务语言处理模型训练方法、装置及相关设备,该方法包括获取每个任务的训练样本、共享层候选参数和每个特定任务处理层候选参数;基于每个任务的训练样本,确定所述多任务语言处理模型的综合损失;判断综合损失是否达到第一预设值;若否,则基于综合损失更新共享层的候选参数,基于各个任务的损失更新各个特定任务处理层的候选参数,并确定所述多任务语言处理模型更新后的综合损失,直至更新后的综合损失达到第一预设值。本申请中的训练方法,基于综合损失对共享层进行训练,能够在整体提高各个任务的预测准确度,基于各个任务损失对各个特定任务处理层进行训练,能够对各个特定任务处理层进行精准的优化。
技术关键词
多任务 模型训练方法 文本 多头注意力机制 训练装置 参数 模型更新 通用特征 模块 非线性 计算机 可读存储介质 处理器 指令
系统为您推荐了相关专利信息
1
一种结合ElasticSearch和AI的搜索问答方法及其系统
问答方法 BERT模型 神经网络结构 文本 问答系统
2
空调器的控制方法、装置、空调器及存储介质
情感分类模型 空调器 深度神经网络 语音特征 数据
3
一种基于大模型的汇报讲稿生成方法、系统、设备及介质
生成方法 生成提示词 模板 格式 文本
4
一种结合因果知识和注意力的可解释性评估方法及装置
注意力 协方差矩阵 样本 模型构建装置 度度量方法
5
基于对比学习与交叉注意力机制的智能分诊方法及系统
分类特征 智能分诊方法 交叉注意力机制 医学影像数据 病历
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号