摘要
本发明涉及一种基于强化学习的可重入混合流水车间生产调度方法,首先分析可重入混合流水车间生产需求,确定当前产品生产的信息;然后确定优化目标,以最小化最大完工时间以及最小化总延迟时间作为优化目标,确定约束条件及参数,以及确定优化问题中的约束和相关参数变量,建立多目标可重入混合流水车间调度问题模型;利用强化学习进行优化求解,基于马尔可夫决策过程模型进行描述,构建状态空间、动作空间,为克服强化学习中奖励稀疏问题带来的挑战,采用分层奖励的方式,构建全局外在奖励与完成每阶段生产后的内部奖励;用双向长短期记忆网络(BiLSTM)构建调度策略,提取内部调度信息,利用近端策略优化(PPO)对模型进行训练,实现行动选择的智能决策。
技术关键词
混合流水车间调度
阶段
工件
数学模型
策略优化方法
强化学习模型
决策
索引
场景特征
变量
分层
参数
矩阵
风险
网络
系统为您推荐了相关专利信息
控制分析装置
负载模拟装置
传感器检测装置
电液伺服阀
高压过滤器
卷积模型
反卷积神经网络
反射光谱数据
光纤光栅传感器
数学模型
液压同步顶升系统
施工方法
周边结构
支撑柱结构
柱子
光电感应组件
输送组件
六轴机器人
不合格品
夹取模块