大语言模型训练方法、装置、计算机设备、介质和产品

AITNT
正文
推荐专利
大语言模型训练方法、装置、计算机设备、介质和产品
申请号:CN202510026455
申请日期:2025-01-08
公开号:CN119539023A
公开日期:2025-02-28
类型:发明专利
摘要
本申请实施例提供一种大语言模型训练方法、装置、计算机设备、介质和产品,涉及模型训练技术领域。该方法先通过文本数据对初始MOE模型进行预训练,得到MOE预训练模型,然后通过第二训练集对MOE预训练模型进行多任务训练,使得训练得到MOE对话模型可以根据输入数据生成与输入数据相关的输出结果,从而完成各种不同的任务。最后,对MOE对话模型进行用户偏好引导,得到MOE奖励模型,以便于对MOE对话模型的输出结果进行评价,从而优化MOE对话模型的模型参数。本申请实施例中,使用MOE模型替换传统的稠密模型,通过MOE模型中的多专家子模型实现模型的不同功能,使用更少的推理显存实现多种功能。
技术关键词
语言模型训练方法 训练集 样本 大语言模型 MLP神经网络 计算机设备 模型训练技术 无监督 数据 可读存储介质 存储计算机程序 计算机程序产品 文本 训练装置 多任务 存储器 标签 处理器 参数
系统为您推荐了相关专利信息
1
一种大语言模型的强化学习训练方法及相关设备
大语言模型 学习训练方法 学习训练装置 计算机程序产品 指标
2
舌诊图像生成方法、装置、设备及存储介质
舌诊图像 噪声图像 舌苔 图像生成方法 注意力
3
面向完备行车环境状态感知的高性能低成本多模态数据融合模型及设备
多模态数据融合 高性能低成本 交叉注意力机制 焦点损失函数 状态空间方程
4
文本查重方法、装置、电子设备及存储介质
关键词 文本查重方法 语义 层次聚类算法 查重装置
5
一种基于声波频率预测超声激发液滴体积的方法
一元线性回归模型 粗大误差 判断准则 异常数据 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号