摘要
本发明公开了一种大模型训练与评估方法,涉及人工智能的技术领域。通过获取训练数据并对其采样得到文档,按照预设长度对文档中的文字段进行拼接得到文字段集;确定基础模型的模型配置参数进行初始化得到初始模型,将文字段集输入至初始模型中进行训练得到模型更新参数进行更新得到目标大模型,获取验证数据,将验证数据输入至目标大模型中得到验证评分,根据验证评分对目标大模型进行评估。获取训练数据并采样拼接得到文字段集,初始化基础模型并训练得到模型更新参数,进而更新得到目标大模型并评估其性能。确保了模型对不同长度文本的学习能力,提升了模型的对长文本的适应能力,提高了模型的训练效率,减少了计算资源消耗。
技术关键词
词语数据库
模型更新
残差矩阵
基础
广义
超参数
拉格朗日
定义
上采样
文本
因子
标签