摘要
本申请公开了一种步骤批改大模型训练方法、作业批改方法、装置及系统,本申请获取第一训练数据,第一训练数据至少包括题目作答数据、标注的用户作答的整题评分标签,以采用领域训练数据训练后的大模型作为初始的步骤批改大模型,针对第一训练数据中的用户作答,逐个步骤采样步骤批改大模型的输出,并至少基于采样结果和用户作答的整题评分标签,估计每个步骤批改结果准确的概率标签,如此可以无需大批量人工标注步骤级批改结果,降低了标注数据的获取成本。在此基础上可以对步骤批改大模型进行训练,得到训练后的步骤批改大模型。本申请允许在训练数据不均衡的情况下高效利用所有训练数据进行模型训练,达到兼顾步骤批改能力和评分能力的效果。
技术关键词
作业批改方法
模型训练方法
蒙特卡洛
标签
网络
策略
模型训练装置
数据获取单元
计算机程序产品
处理器
阶段
可读存储介质
存储器
电子设备
基座
系统为您推荐了相关专利信息
灭火无人机
桨叶
优化设计方法
多旋翼
模拟退火算法
智能设计方法
深度强化学习
训练深度神经网络
海洋
深度神经网络模型