摘要
本公开提供了一种大语言模型的训练方法、装置、设备、介质和产品,涉及预训练、大模型、大语言模型、模型蒸馏、精调、调优、微调、transformer、对话式、生成式、生成模型等技术领域。具体实现方案为:将样本文本指令输入至目标大语言模型中,得到标准回复文本,且将样本文本指令输入至待训练大语言模型中,得到预测回复文本;根据标准回复文本的第一质量评分,与预测回复文本的第二质量评分之间的评分差值,从标准回复文本中确定第一样本回复文本;根据第一样本回复文本以及第一样本回复文本对应的样本文本指令,生成第一目标训练样本,并根据第一目标训练样本构建训练数据集。本公开实现了提高大语言模型的训练效率的效果。
技术关键词
大语言模型
文本
样本
指令
语义
数据
模块
主题
格式
计算机程序产品
训练装置
处理器通信
可读存储介质
存储器
电子设备
蒸馏