摘要
本发明公开了一种基于深度强化学习的混流生产线线性缓冲区重排序方法,包括构建线性缓冲区的状态表示;根据预设启发式规则,将上游工段的产品依次存入缓冲区各位置;利用深度强化学习智能体根据当前状态输入生成释放动作指令,决定从哪个缓冲区位置释放产品;根据释放动作指令,在满足先进先出规则的前提下释放对应位置的产品至下游工位;基于释放后关键选项在下游序列中造成的节拍规则违背情况计算奖励值,用于优化智能体策略;重复上述步骤,直至完成全部产品顺序释放。本发明构建面向工位节拍规则优化的状态特征输入、奖励函数机制及训练框架,降低关键配置造成的节拍规则违背次数,提升生产线运行平稳性和整体节拍效率。
技术关键词
重排序方法
深度强化学习
释放产品
启发式规则
线性
矩阵
通道
先进先出
制造执行系统
参数
网络结构
序列
上游系统
策略更新
指令
工位
订单
算法