摘要
本发明公开了基于部分可观马尔可夫决策的工业控制跨层安全决策方法,包括:步骤1:使用监测系统对状态信息部分可观的工业控制系统进行状态感知,通过模型与工控系统的不断交互来收集训练数据。步骤2:使用基于POMDP决策框架的T‑DRQN深度强化学习方法将交互得到的数据与历史观测信息结合进行训练。步骤3:使用网络层设备节点的警报信息与物理层传感器读数对于入侵响应策略的响应效果进行评价,并利用这些指标分析不同模型之间响应性能的差异。本发明能够有效抵御从网络空间到物理空间的多阶段跨层攻击,采用双分支网络结构,更加明显地区分状态价值和动作优势,从而更准确、高效地指导入侵响应决策,更适用于处理系统状态信息部分可观的工控场景。
技术关键词
决策方法
工业控制系统
工控系统
深度强化学习方法
收集训练数据
决策系统
系统状态信息
监测系统
三层网络结构
警报
模块
传感器
双分支网络
神经网络架构
递归神经网络
神经网络参数
策略
理解系统
系统为您推荐了相关专利信息
辅助决策方法
动态变化特征
色彩空间特征
序列
穴位
仿真环境
路径规划方法
物流小车
障碍物
LSTM模型
调度优化方法
可再生能源
调度优化模型
粒子群优化算法
储能设备
深度强化学习方法
多头注意力机制
强化学习算法
策略更新
离线