摘要
本发明属于工业智能技术领域,是一种基于深度强化学习的非相关并行机调度方法,包括:构建适用于非相关并行机调度的数学模型;采集每个工件在各台异构机器上的加工时间,并进行归一化处理;初始化遗传算法调度种群和深度Q网络;构建深度强化学习训练框架;利用平均适应度、最优适应度和最优个体编码表示状态向量;利用动作空间控制遗传算法的操作参数,利用奖励函数更新深度Q网络的参数;利用训练完成的深度强化学习模型,在遗传算法迭代过程中动态控制算子选择,获得最优调度解,实现非相关并行机的调度。本发明通过分析非相关并行机调度问题数据模型为求解制造业生产调度领域类似问题提供深度强化学习算法,提高生产效率。
技术关键词
深度Q网络
深度强化学习模型
遗传算法
工业智能技术
深度强化学习算法
数学模型
异构
工件
贪婪策略
参数
定义
矩阵
变量
样本
框架
比率
符号
决策