摘要
本发明公开了一种基于强化学习的网络对抗决策方法,属于网络对抗的技术领域,根据网络对抗过程的特点,将网络对抗过程建模为部分可观测的马尔可夫决策过程,并利用网络环境状态转移的特性,通过图的无监督和自监督任务构建网络环境表征模型;结合网络环境表征模型、基于强化学习算法构建网络对抗决策模型,针对攻击和防御两种场景形成对应智能体,包括攻击方和防守方。并在网络对抗模拟环境中进行动态博弈,通过最大化回报不断提升网络对抗的决策质量;本发明采用上述方法,将网络对抗过程转化为部分可观测的马尔可夫决策问题,结合图神经网络、基于强化学习算法实现网络对抗的策略生成,通过智能体之间的动态博弈实现网络对抗策略的优化。
技术关键词
决策方法
节点特征
编码器
注意力机制
强化学习算法
参数
Softmax函数
策略优化模型
动态
网络拓扑
重构
GRU模型
网络表征
轨迹
定义
变量
系统为您推荐了相关专利信息
学习路径规划方法
习惯
答题信息
视频捕获设备
视觉特征
风险评估方法
深度学习算法
标准化方法
注意力机制
优化器
矩阵
哈希检索方法
注意力机制
文本特征值
图像特征值
识别模型训练方法
更新模型参数
解码器
遥感图像数据
识别头
图像生成模型
文本生成模型
背景图
图样
模型训练方法