摘要
本发明涉及网络安全技术领域,公开了一种自主网络攻防智能体训练方法、装置、设备及介质,可以基于网络环境、第一强化学习算法、第一待训练智能体的第一攻防角色和第一对抗智能体,对第一待训练智能体进行网络攻防预训练,得到基线智能体;其中,第一对抗智能体为未使用神经网络算法训练过,采用固定策略进行网络攻防的智能体。将基线智能体作为第二待训练智能体的第二对抗智能体,对第二待训练智能体进行网络攻防后训练,得到后训练智能体;其中,第二攻防角色与第一攻防角色互为相对角色。对后训练智能体进行微调优化,得到第一最优智能体。本发明训练得到的第一最优智能体具备较高的自主网络攻防性能,有效增强智能体的网络攻防可靠性。
技术关键词
训练智能体
强化学习算法
智能体训练方法
增强子
基线
神经网络算法
动作策略
防御网络攻击
拓扑图
计算机
网络安全技术
动态
可读存储介质
评分机制
节点
训练装置
漏洞
存储器
系统为您推荐了相关专利信息
共享控制权
机械臂
强化学习算法
电信号
装配系统
精准识别方法
历史数据统计
异常数据
强化学习算法
生成对抗网络
工业设备
工作状态信息
柔性控制方法
精度
模拟模型
多模态情绪
多模态传感器
语音特征
陪伴系统
深度学习模型
无人机识别系统
无线电技术
无人机识别方法
无线电接收
信号处理模块