一种基于人类反馈强化学习的分层次教育出题方法及系统

正文

推荐专利

申请号：CN202511078008

申请日期：2025-08-01

公开号：CN120580116A

公开日期：2025-09-02

类型：发明专利

摘要

本发明涉及数据分析领域，尤其涉及一种基于人类反馈强化学习的分层次教育出题方法及系统，所述方法先获取出题引导信息及对应的题目参考评分，再将出题引导信息输入预设的题目生成模型中，生成候选题目集，然后，根据题目参考评分，排序生成人类偏好数据集，接着将出题引导信息和人类偏好数据集输入第一奖励模型中，预测得到符合预设目标函数的奖励分数，并将奖励分数反向传播，得到第二奖励模型，再将出题引导信息和候选题目集输入第二奖励模型和预设的评论家模型中，以驱动题目生成模型中模型参数的更新，最后，将出题引导信息输入模型参数更新后的题目生成模型中，得到实际题目集。本发明方法解决了现有技术深度理解能力不足的问题。

技术关键词

出题方法人类计算机程序指令出题系统数据排序损失文本参数估计算法策略存储器处理器因子元素误差

系统为您推荐了相关专利信息

一种基于LLM多模态数据生成的无人机抗欺骗能力提升方法

能力提升方法无人机图像 GPS位置信息多模态特征

一种基于深度学习的城镇燃气管网水力仿真方法及装置

城镇燃气管网仿真模型水力数据节点

机器人自主探索建图的方法及装置

机器人本体计算机可执行指令场景聚类处理器

一种基于轻量级神经网络的毫米波雷达手势识别方法

轻量级神经网络手势识别方法雷达动态手势中频信号

基于UDP广播的虚拟现实大空间自动局域网组网方法及系统

服务端客户端设备大空间组网方法数据同步

一种基于人类反馈强化学习的分层次教育出题方法及系统

站点导航

APP 下载