摘要
本发明公开了一种基于深度强化学习的分布式装配置换流水车间调度方法,包括:1)搭建分布式装配置换流水车间的环境框架并初始化环境参数,设定车间调度的约束条件,并设定调度目标是最小化总流量时间;2)定义状态空间、动作空间与奖励机制,计算不同奖励机制对于总流量时间的影响;3)更新作业和机器的相关信息;4)运行PPO算法进行学习和训练;5)记录调度结果,直至训练结果是否达到终止条件;6)画出总流量时间的迭代图,获得最低总流量时间的车间调度结果。本发明使用PPO算法解决分布式装配置换流水车间调度问题,设计了新的复合调度规则以及新的奖励机制,能够使算法进行更好的学习,有利于使算法更快的找到更优解。
技术关键词
置换流水车间调度
深度强化学习
瓶颈
队列
机制
索引
算法
产能
阶段
订单
列表
时间段
变量
基线
组装机
指标
序列
定义
系统为您推荐了相关专利信息
攻击检测方法
终端设备
异常流量检测
工业互联网
攻击检测系统
机场特种车辆
仿真模型
数字孪生
深度强化学习算法
预训练模型