摘要
本发明公开了一种平衡贪心与置信上限动作策略的强化学习排课算法,可以根据教学资源和排课需求优化中小学排课过程。排课算法步骤如下:(1)整合教学资源,编码成6位教学任务元组;(2)定义排课动作与状态空间,构建排课表强化学习环境模型;(3)平衡使用贪心与置信上限动作策略,强化学习排课过程;(4)根据学习得到的最佳Q值表格,生成全校课表。其中,贪心与置信上限动作选择策略在算法不同阶段使用,结合奖励函数引导,平衡两种策略选择最佳排课动作,学习优化排课过程。本发明将排课问题转化为强化学习决策过程,根据教学资源和实际应用需求排课,有效优化排课表结果。
技术关键词
排课算法
动作策略
强化学习环境
时间片
矩阵
教学
教师
表达式
节点
错误率
编码
阶段
定义
表格
计划
决策
实体
列表
系统为您推荐了相关专利信息
特征评价方法
岩土力学参数
动态更新
深度学习预测
结构特征提取
可信交易方法
负荷预测模型
分布式资源
属性基加密
功率
在线动作检测
二维卷积神经网络
状态空间模型
分类器
模块