一种平衡贪心与置信上限动作策略的强化学习排课算法

正文

推荐专利

申请号：CN202410885442

申请日期：2024-07-03

公开号：CN118863387A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种平衡贪心与置信上限动作策略的强化学习排课算法，可以根据教学资源和排课需求优化中小学排课过程。排课算法步骤如下：(1)整合教学资源，编码成6位教学任务元组；(2)定义排课动作与状态空间，构建排课表强化学习环境模型；(3)平衡使用贪心与置信上限动作策略，强化学习排课过程；(4)根据学习得到的最佳Q值表格，生成全校课表。其中，贪心与置信上限动作选择策略在算法不同阶段使用，结合奖励函数引导，平衡两种策略选择最佳排课动作，学习优化排课过程。本发明将排课问题转化为强化学习决策过程，根据教学资源和实际应用需求排课，有效优化排课表结果。

技术关键词

排课算法动作策略强化学习环境时间片矩阵教学教师表达式节点错误率编码阶段定义表格计划决策实体列表

系统为您推荐了相关专利信息

基于多源数据融合的土岩复合地层地质特征评价方法

特征评价方法岩土力学参数动态更新深度学习预测结构特征提取

一种基于区块链的负荷侧分布式资源可信交易方法及系统

可信交易方法负荷预测模型分布式资源属性基加密功率

一种UVW平台电机角链坐标纠偏方法、装置、电子设备及存储介质

坐标纠偏方法平台超定方程组运动数学模型

结合客观天气分型和相对偏差模糊矩阵的暴雨量级推算方法

推算方法综合评价技术均值聚类算法矩阵模式

基于Mamba架构的实时在线动作检测方法

在线动作检测二维卷积神经网络状态空间模型分类器模块

一种平衡贪心与置信上限动作策略的强化学习排课算法

站点导航

APP 下载