摘要
本发明公开了一种多语言大模型训练方法、装置及相关设备,所述方法包括:获取平行语料数据,并从中得到低资源语种的单语语料数据;将其与平行语料数据同步分别输入共享参数的自编码器和目标多语言大模型,目标多语言大模型包括知识迁移层,该知识迁移层用于增强不同语种中意义相近的语料的注意力;构建三元数据集并输入模型得到三元损失;利用三元损失对模型进行更新。采用本发明可以提高平行语料数据的利用效率,提升模型训练效率及输出质量,并在不影响多语言大模型的能力的基础上提高其对低资源语种的理解能力。
技术关键词
平行语料数据
多语言
资源
注意力
模型训练方法
编码器
sigmoid函数
解码器
模型训练装置
可读存储介质
矩阵
适配器
数据嵌入
动态
处理器
计算机设备
模块
超参数
系统为您推荐了相关专利信息
访问权限管理
人力资源数据
Fabric区块链
企业人力资源管理
零知识证明
电力通信系统
通信链路
节点
注意力神经网络
决策
煤矿提升机
井口安全门
异常检测方法
图像增强模型
特征提取网络
评分预测模型
感兴趣
动态加载方法
资源更新
计算机设备