摘要
本发明提供基于深度强化学习的半导体制造Q‑time控制方法,涉及半导体技术领域,包括获取工艺参数、设备状态、工序间等待时间和批次信息,输入到基于双重深度神经网络的深度强化学习模型中,计算Q‑time违规风险度,并选择调度动作;该模型采用包含Q‑time违规惩罚、生产效率奖励、设备利用率奖励和批次平衡奖励的综合奖励函数进行训练;最后,多目标优化决策模块根据实时监控数据和选择的调度动作,综合考虑产能最大化和Q‑time违规最小化生成调度指令,动态调整工序安排。
技术关键词
深度强化学习模型
深度神经网络
设备状态信息
风险
半导体
设备运行状态
产能
加权损失函数
时序特征
制造执行系统
设备状态数据
参数
决策
计算机程序指令
样本
估计误差
动态
系统为您推荐了相关专利信息
客户
多层前馈神经网络
记忆单元
时间序列分析方法
LSTM神经网络
自动化定位组件
调控组件
半导体散热结构
频谱分析仪
抗干扰天线
旋转机械故障检测
故障诊断方法
多分类器
故障类别
样本
封样方法
多模态协同
智能决策系统
视觉识别系统
深度Q学习