摘要
本发明公开了基于强化学习的安全策略匹配方法、计算机程序产品、存储介质及终端,属于网络安全技术领域,使用PPO模型的策略网络与网络环境进行交互,计算策略网络基于KL惩罚项优化的目标函数以及限制新旧策略比例进行剪切操作的目标函数,根据两个目标函数更新策略网络,多次迭代使网络输出最优调度策略,并采用最优调度策略处理网络威胁。PPO模型能够评估当前策略的有效性,并据此动态调整策略,当面对新型网络威胁时,若旧策略无法有效应对导致奖励降低,模型会自动探索新的策略,以寻找更优的应对方案,从而实现对策略的快速优化和更新,当网络环境或攻击手段发生变化时,能够迅速调整策略以应对新的挑战。
技术关键词
安全策略匹配方法
策略优化模型
策略数据库
网络攻击事件
网络攻击信息
计算机程序产品
网络安全技术
表达式
处理器
指令
终端
超参数
存储器
有效性
代表
广义
系统为您推荐了相关专利信息
中央控制单元
图像采集模块
静态特征
重构模块
拓扑图
充电策略
策略优化模型
调度优化方法
阶段
储能系统充放电
智能设计方法
XGBoost算法
两阶段
木拱廊桥
参数
机器可读存储介质
卷积神经网络模型
融合特征
捕获EEG信号
通道