摘要
本发明提供了一种基于自博弈强化学习的蜜阵防御资源分配优化方法,涉及网络安全防御技术领域。所述优化方法包括以下步骤:基于网络拓扑部署防御资源,建立主机与防御资源之间的映射关系;基于所述映射关系进行攻防对抗模拟获得初始攻击策略和初始防御策略;基于初始攻击策略和初始防御策略构建马尔科夫博弈模型;基于深度确定性策略梯度算法对所述马尔科夫博弈模型的攻防训练进行自博弈强化学习;基于Actor‑Critic算法对所述攻防训练进行价值评估获得最优防御资源分配策略。实施本发明提供的优化方法能够使防御方与攻击方进行自博弈强化学习,在对抗中动态调整防御策略,提升了防御效果。
技术关键词
资源分配优化方法
资源分配策略
蜜罐主机
网络拓扑
网络安全防御技术
动作策略
算法
关系
定义
网络节点
参数
方程
因子
动态