一种多语言大模型训练方法、装置及相关设备

AITNT
正文
推荐专利
一种多语言大模型训练方法、装置及相关设备
申请号:CN202411646993
申请日期:2024-11-18
公开号:CN119476409B
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种多语言大模型训练方法、装置及相关设备,所述方法包括:获取平行语料数据,并从中得到低资源语种的单语语料数据;将其与平行语料数据同步分别输入共享参数的自编码器和目标多语言大模型,目标多语言大模型包括知识迁移层,该知识迁移层用于增强不同语种中意义相近的语料的注意力;构建三元数据集并输入模型得到三元损失;利用三元损失对模型进行更新。采用本发明可以提高平行语料数据的利用效率,提升模型训练效率及输出质量,并在不影响多语言大模型的能力的基础上提高其对低资源语种的理解能力。
技术关键词
平行语料数据 多语言 资源 注意力 模型训练方法 编码器 sigmoid函数 解码器 模型训练装置 可读存储介质 矩阵 适配器 数据嵌入 动态 处理器 计算机设备 模块 超参数
系统为您推荐了相关专利信息
1
一种应用于人力资源的数据共享处理方法及系统
访问权限管理 人力资源数据 Fabric区块链 企业人力资源管理 零知识证明
2
基于多智能体深度强化学习的电力通信系统鲁棒路由方法
电力通信系统 通信链路 节点 注意力神经网络 决策
3
一种基于多源数据融合与轻量级注意力机制的蒲黄炮制火候判别方法
注意力机制 电子鼻 判别方法 电子眼 数据
4
一种煤矿提升机关键部位异常检测方法
煤矿提升机 井口安全门 异常检测方法 图像增强模型 特征提取网络
5
资源的动态加载方法、装置、计算机设备及存储介质
评分预测模型 感兴趣 动态加载方法 资源更新 计算机设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号