基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统

正文

推荐专利

申请号：CN202510104333

申请日期：2025-01-23

公开号：CN120087444A

公开日期：2025-06-03

类型：发明专利

摘要

本申请涉及数据处理技术领域，公开了一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统。该方法包括：根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数，利用贝尔曼最优Q函数构造本征状态邻域集合，并利用一致性对抗鲁棒算子刻画最优对抗Q函数模型，采用贝尔曼无穷范数形成训练目标，结合投影梯度下降算法直接获取对抗样本，或经区间界限传播估计Q值边界进而得到训练目标的替代上界目标，最后通过随机梯度下降或自适应动量估计等方法完成网络训练。本申请在保证最优鲁棒策略存在性的前提下，设计一种既具有对抗鲁棒性又具有训练稳定性的深度Q学习方法，使得训练出的智能体在干净环境和对抗环境中都能表现出一致的优良性能。

技术关键词

学习方法梯度下降算法邻域网络样本估计算法误差统计参数序列学习系统深度Q学习鲁棒策略决策随机梯度下降松弛动态数据处理技术鲁棒性

系统为您推荐了相关专利信息

高通量基因测序的并行处理同步优化方法及系统

高通量基因测序矩阵参数序列凸优化算法

虚拟化用于网络连接的硬件弹性

网络接口控制器端口网络系统虚拟化网络接口电路

基于双目视觉的三维重建方法和装置

三维重建方法深度匹配网络双目相机深度学习网络视觉

用于分布式光伏-储能系统的智能负荷管控配电系统和方法

配电变压器低压配电网分布式光伏主节点有功功率

计及新能源接入的配电网线损异常研判及精准追踪方法、装置

配电网台区台区线损率数据生成模型追踪方法配电网线损数据

基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统

站点导航

APP 下载