摘要
本发明涉及数据分析领域,尤其涉及一种基于人类反馈强化学习的分层次教育出题方法及系统,所述方法先获取出题引导信息及对应的题目参考评分,再将出题引导信息输入预设的题目生成模型中,生成候选题目集,然后,根据题目参考评分,排序生成人类偏好数据集,接着将出题引导信息和人类偏好数据集输入第一奖励模型中,预测得到符合预设目标函数的奖励分数,并将奖励分数反向传播,得到第二奖励模型,再将出题引导信息和候选题目集输入第二奖励模型和预设的评论家模型中,以驱动题目生成模型中模型参数的更新,最后,将出题引导信息输入模型参数更新后的题目生成模型中,得到实际题目集。本发明方法解决了现有技术深度理解能力不足的问题。
技术关键词
出题方法
人类
计算机程序指令
出题系统
数据
排序损失
文本
参数
估计算法
策略
存储器
处理器
因子
元素
误差
系统为您推荐了相关专利信息
能力提升方法
无人机
图像
GPS位置信息
多模态特征
轻量级神经网络
手势识别方法
雷达
动态手势
中频信号