摘要
本发明公开了一种多语言大模型训练方法、装置及相关设备,所述方法包括:获取平行语料数据,并基于子任务类型对其进行格式转换,得到与多个子任务类型对应的数据格式;将平行语料数据和数据格式输入初始多语言大模型,该模型包括子网络层,子网络层与子任务类型一一对应;计算每个子网络层的损失τ;根据每个子网络层的损失τ,计算全局损失L;利用该L对模型进行更新,得到更新后的多语言大模型。采用本发明可以提高平行语料数据的利用效率,并在不影响多语言大模型的能力的基础上提高其对低资源语种的理解能力。
技术关键词
平行语料数据
多语言
数据格式
模型训练方法
跨语言信息检索
命名实体识别
模型训练装置
可读存储介质
机器翻译
处理器
计算机设备
模块
存储器
算法
参数
矩阵
元素
资源
系统为您推荐了相关专利信息
图像处理器
样本
模型训练方法
历史性能数据
特征值
车道线识别方法
注意力机制
深度学习网络
场景
车辆
半监督随机森林
标记
人口统计信息
基础
医疗健康