摘要
本发明公开一种基于强化学习的钢铁生产运行计划生成方法及装置,该方法将钢铁生产灵活运行过程转化为部分可观测马尔可夫决策过程系统;通过注意力机制对观测空间进行表征处理,获得观测空间表征;通过启发式决策规则对动作空间进行表征处理,获得动作空间表征;根据总用电费用数据,构建奖励函数;根据钢铁生产的任务执行约束及中间产品运输时间约束,构建惩罚函数;构建若干具有随机参数的深度神经网络模型,进行迭代更新,直至达到设定迭代次数,选取总回报最高的作为目标深度神经网络模型;通过目标深度神经网络模型生成钢铁生产运行计划。本发明能够降低系统观测空间维度以及系统动作空间维度,有效扩大搜索空间,提升模型训练效率。
技术关键词
深度神经网络模型
计划生成方法
计划生成装置
决策
生成钢铁
注意力机制
表达式
模块
风力
参数
线性
总量
变量
数据