摘要
本发明公开了一种订单随机到达的不稳定混合作业车间动态调度方法及系统,在模型建立阶段,建立端到端的马尔可夫决策过程,通过设置基于阶段的多个智能体,避免大规模问题因素下的动作和状态空间快速膨胀,保证合理训练时间。在Q‑网络训练阶段,设置记忆回放缓冲区机制以收集训练数据,根据订单到达时间和机器故障时间判断重调度时机,利用基于贪婪规则的动作选择策略实现状态空间的充分探索,引入双层动作空间确定操作执行顺序和位置。在Q‑网络测试阶段,输入一定规模测试算例,利用训练完成的网络,产生解决方案。本发明旨在最小化最大完工时间和总能耗,在智能制造领域有广泛的应用价值和使用前景。
技术关键词
动态调度方法
作业车间
阶段
订单
收集训练数据
贪婪策略
动态调度系统
重放机制
深度神经网络
参数
变量
代表
记忆
决策
线性
能耗
数值