基于强化学习的安全策略匹配方法、计算机程序产品、存储介质及终端

正文

推荐专利

申请号：CN202510172710

申请日期：2025-02-17

公开号：CN120017375A

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了基于强化学习的安全策略匹配方法、计算机程序产品、存储介质及终端，属于网络安全技术领域，使用PPO模型的策略网络与网络环境进行交互，计算策略网络基于KL惩罚项优化的目标函数以及限制新旧策略比例进行剪切操作的目标函数，根据两个目标函数更新策略网络，多次迭代使网络输出最优调度策略，并采用最优调度策略处理网络威胁。PPO模型能够评估当前策略的有效性，并据此动态调整策略，当面对新型网络威胁时，若旧策略无法有效应对导致奖励降低，模型会自动探索新的策略，以寻找更优的应对方案，从而实现对策略的快速优化和更新，当网络环境或攻击手段发生变化时，能够迅速调整策略以应对新的挑战。

技术关键词

安全策略匹配方法策略优化模型策略数据库网络攻击事件网络攻击信息计算机程序产品网络安全技术表达式处理器指令终端超参数存储器有效性代表广义

系统为您推荐了相关专利信息

基于人脸识别安全管理的多维度合规性检测系统及方法

中央控制单元图像采集模块静态特征重构模块拓扑图

基于主从博弈的电动汽车聚合商的调度优化方法和装置

充电策略策略优化模型调度优化方法阶段储能系统充放电

一种基于两阶段预测模型的木拱廊桥参数智能设计方法

智能设计方法 XGBoost算法两阶段木拱廊桥参数

一种基于多尺度卷积神经网络的运动想象脑电信号分类方法

机器可读存储介质卷积神经网络模型融合特征捕获EEG信号通道

一种基于多任务梯度的端到端营销策略建模方法及系统

策略优化模型多任务建模方法密度聚类

基于强化学习的安全策略匹配方法、计算机程序产品、存储介质及终端

站点导航

APP 下载