摘要
本发明提供基于深度强化学习的半导体制造中晶圆厂级实时调度方法,涉及半导体技术领域,包括基于深度强化学习,通过采集设备状态、批次信息和工艺流程信息构建状态空间向量,输入预训练的深度强化学习网络模型,该模型包括价值评估网络和策略网络。模型生成批次与设备的匹配概率分布,采用分层强化学习方法分解为批次选择和设备分配两个子任务,生成多个候选匹配方案。然后应用多目标奖惩函数评估候选方案,并结合蒙特卡洛树搜索算法选出最优调度方案,并下发加工指令。工序加工过程中采集实时加工数据更新状态空间向量,实现实时调度。
技术关键词
深度强化学习
策略
分层强化学习
门控循环单元网络
设备控制系统
蒙特卡洛树
设备状态信息
节点
信息提取设备
矩阵
参数
搜索算法
梯度方法
数据更新
计算机程序指令
设备故障率
先进先出方式
序列
系统为您推荐了相关专利信息
激光焊接机器人
缺陷检测方法
图谱
风险
视觉传感器
指令调度装置
指令缓冲器
调度器
电子设备
处理器
无线传感器
多任务
高斯概率模型
高斯分布模型
覆盖率