摘要
本发明实施例提供了一种针对核电站事故工况的决策方法及装置,该决策方法根据预设的事故工况进行马尔科夫决策过程建模,并利用离线离线专家数据集对改进的DQN算法进行训练,得到策略模型,使用策略模型对当前的事故工况进行智能决策,使得决策处理更快速准确。本发明实施例在原始的DQN算法的基础上结合行为克隆算法,并增加了集成网络投票器Actor网络且使用两套Critic网络,使得训练过程更高效,策略模型的响应速度更快,从而提高了决策效率。
技术关键词
决策方法
核电站事故工况
网络
投票器
参数
样本
算法
离线
策略
观测设备
数据
压力
基础
因子
轨迹
信号
系统为您推荐了相关专利信息
指标
过滤控制器
深度强化学习算法
参数调优方法
许可
数字孪生模型
动态调度系统
纺丝设备
关键工艺参数
数据处理单元
车辆状态信息
车身侧倾角
执行器控制单元
悬架
参数