摘要
本公开涉及神经网络模型技术领域,具体涉及一种学生模型的训练方法、装置、电子设备及存储介质,所述方法包括:获取算法优化学生模型基于至少一个问题生成的算法优化模型输出,基于算法优化模型输出与预设答案获取基础奖励,基于算法优化模型输出的长度以及回答长度阈值获取回答长度奖励;获取算法优化模型输出中不同内容的下一个词被生成为不同词的第一词生成概率,基于第一词生成概率获取第一生成熵;基于回答长度奖励以及第一生成熵对算法优化学生模型进行训练,得到计算奖励优化学生模型;若计算奖励优化学生模型收敛,则输出。该方案可以确保计算奖励优化学生模型生成正确且简短的答案,提高了训练过程中模型的收敛速度,改善了用户体验。
技术关键词
学生
答案
基础
生成算法
神经网络模型技术
计算机
策略
教师
模型训练模块
电子设备
训练装置
格式
标签
处理器
指令
输出模块
蒸馏
可读存储介质
系统为您推荐了相关专利信息
轨迹优化方法
轨迹规律
轨迹模型
机械抛光技术
光学元件
发光显示材料
数字孪生模型
工艺设备
随机森林模型
遗传算法
深度强化学习算法
决策
数据采集效率
生成方法
生成无人机