摘要
本发明公开了一种多工况事故处理方法、装置、计算机设备及存储介质,其方法包括:针对不同的工况,收集操作员的操作轨迹数据以及在仿真机中进行仿真控制时的操作轨迹数据,得到离线专家数据集;将针对不同的工况的决策问题建模为包含行为克隆过程的强化学习智能体,并对强化学习智能体的状态价值函数网络和动作价值函数网络进行更新;利用状态价值函数网络和动作价值函数网络的差值确定优势函数,并对行为克隆过程进行加权,得到多个策略模型;对多个策略模型进行筛选,得到通用智能体模型;对通用智能体模型进行部署并对当前工况进行处理。本发明能够同时处理多个事故工况,有效增加了核电站的智能化水平及操作员的操作效率。
技术关键词
智能体模型
策略
网络
离线
轨迹
算法
事故工况
计算机设备
数据
处理器
可读存储介质
数学
核电站
存储器
数值
误差
因子
系统为您推荐了相关专利信息
科技项目管理系统
风险评估算法
数据版本管理
支持用户交互
统计分析方法
道路交通事故
环境感知数据
雷达传感器
卷积神经网络模型
场景
智能调光控制方法
LED驱动器
PWM调光控制
分段线性函数
控制策略
多机器人协同
运维系统
强化学习算法
设备运行状态
强化学习模型