一种多语言大模型训练方法、装置及相关设备

正文

推荐专利

申请号：CN202411646993

申请日期：2024-11-18

公开号：CN119476409B

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种多语言大模型训练方法、装置及相关设备，所述方法包括：获取平行语料数据，并从中得到低资源语种的单语语料数据；将其与平行语料数据同步分别输入共享参数的自编码器和目标多语言大模型，目标多语言大模型包括知识迁移层，该知识迁移层用于增强不同语种中意义相近的语料的注意力；构建三元数据集并输入模型得到三元损失；利用三元损失对模型进行更新。采用本发明可以提高平行语料数据的利用效率，提升模型训练效率及输出质量，并在不影响多语言大模型的能力的基础上提高其对低资源语种的理解能力。

技术关键词

平行语料数据多语言资源注意力模型训练方法编码器 sigmoid函数解码器模型训练装置可读存储介质矩阵适配器数据嵌入动态处理器计算机设备模块超参数

系统为您推荐了相关专利信息

一种应用于人力资源的数据共享处理方法及系统

访问权限管理人力资源数据 Fabric区块链企业人力资源管理零知识证明

基于多智能体深度强化学习的电力通信系统鲁棒路由方法

电力通信系统通信链路节点注意力神经网络决策

一种基于多源数据融合与轻量级注意力机制的蒲黄炮制火候判别方法

注意力机制电子鼻判别方法电子眼数据

一种煤矿提升机关键部位异常检测方法

煤矿提升机井口安全门异常检测方法图像增强模型特征提取网络

资源的动态加载方法、装置、计算机设备及存储介质

评分预测模型感兴趣动态加载方法资源更新计算机设备

一种多语言大模型训练方法、装置及相关设备

站点导航

APP 下载