摘要
本发明公开了一种基于深度强化学习的带运输时间的柔性作业车间调度方法,所述方法采用带迁移网络的PPO算法进行求解,其方法的包括:首先,构建带运输时间的柔性作业车间调度问题算例用于进行模型训练;其次,构建合适的马尔可夫决策模型,将目标问题转化为马尔可夫决策过程;再次,构建合适的PPO算法智能体A1,使用训练数据对智能体A1进行充分训练,通过梯度下降对策略网络和价值网络进行优化;最后,构建新的PPO算法智能体A2,将A1的策略网络与价值网络迁移至A2中并进行微调,加入LSTM网络层及部分全连接层,使用A2对目标算例进行调度。本发明具有较好的调度性能,提出的深度强化学习模型能高效求解各规模的带运输时间的柔性作业车间调度问题实例。
技术关键词
柔性作业车间调度
网络
策略
计算机可读指令
深度强化学习模型
决策
采样方法
算法
可读存储介质
工件
缩放参数
数据
线性
定义
规模
系统为您推荐了相关专利信息
安全隐患监测系统
神经内科护理
安全隐患监测方法
医疗知识图谱
节点
柔性直流互联
能量管控方法
有功功率
可调设备
变量
智能分析系统
生成对抗网络模型
时间序列特征
格式
动态时间规整算法