摘要
本发明公开了一种基于深度强化学习的试剂搬运场景动态作业排序方法,应用所述方法构建试剂搬运场景环境模型,给出虚拟的订单需求、接收订单处理的决策顺序,并对该决策顺序进行评估打分;构建优势演员评论家模型,并在虚拟仿真环境中进行训练;训练完成后,将实时的订单需求输入至优势演员评论家模型,由这一模型给出试剂搬运订单的最优决策顺序,即:处理订单的先后次序;将处理订单的先后次序输出至搬运厂区的自动化搬运机械臂,由机械臂执行相关命令,完成搬运的全过程。解决了强化学习中对动作价值和状态价值的预测问题。
技术关键词
深度强化学习
订单
动态作业
搬运机械臂
排序方法
虚拟仿真环境
决策
场景
计算机可读指令
梯度算法
网络
可读存储介质
作业系统
路程
策略
机械设备
命令
损耗
系统为您推荐了相关专利信息
员工
分布式存储算法
技能评估
服务器节点
智能交互界面
定价方式
销量预测方法
基础
人工智能技术
数据获取模块
化构建方法
ERP系统
企业资源规划系统
工艺流程布局
数据驱动业务
节能优化方法
蒸发式冷凝器
样本
系统仿真器
深度神经网络