摘要
本申请实施例提供了一种模型训练方法、装置、电子设备及存储介质,涉及人工智能领域,例如,可用于大模型领域、强化学习领域等。该方法包括:获取第一训练集,每一训练数据包括第一训练样本以及对应的第一标签;基于第一训练集对初始模型进行训练,得到微调后的训练模型,并获取训练过程中初始模型输出的关于每一第一训练样本的错误输出;获取第二训练集,基于第二训练集对微调后的模型进行训练,得到逻辑推理模型。通过提供充足且类型丰富的训练数据的方式解决了训练模式单一、模型能力发展片面、模型思考能力弱、泛化能力弱的问题,使得训练得到的模型具备较强的泛化能力,能适应不同类型的输入数据的变化,提高了模型的适用性、泛化性及效果。
技术关键词
标签
字符
样本
训练集
模型训练方法
文本
模型训练模块
逻辑
神经网络参数
生成提示信息
模型训练装置
数据
电子设备
下轮
大语言模型
处理器
可读存储介质
存储器
语义