摘要
本申请涉及数据处理技术领域,公开了一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统。该方法包括:根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数,利用贝尔曼最优Q函数构造本征状态邻域集合,并利用一致性对抗鲁棒算子刻画最优对抗Q函数模型,采用贝尔曼无穷范数形成训练目标,结合投影梯度下降算法直接获取对抗样本,或经区间界限传播估计Q值边界进而得到训练目标的替代上界目标,最后通过随机梯度下降或自适应动量估计等方法完成网络训练。本申请在保证最优鲁棒策略存在性的前提下,设计一种既具有对抗鲁棒性又具有训练稳定性的深度Q学习方法,使得训练出的智能体在干净环境和对抗环境中都能表现出一致的优良性能。
技术关键词
学习方法
梯度下降算法
邻域
网络
样本
估计算法
误差统计
参数
序列
学习系统
深度Q学习
鲁棒策略
决策
随机梯度下降
松弛
动态
数据处理技术
鲁棒性
系统为您推荐了相关专利信息
网络接口控制器
端口
网络系统
虚拟化网络接口
电路
三维重建方法
深度匹配网络
双目相机
深度学习网络
视觉
配电变压器
低压配电网
分布式光伏
主节点
有功功率
配电网台区
台区线损率
数据生成模型
追踪方法
配电网线损数据