基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统

AITNT
正文
推荐专利
基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统
申请号:CN202510104333
申请日期:2025-01-23
公开号:CN120087444A
公开日期:2025-06-03
类型:发明专利
摘要
本申请涉及数据处理技术领域,公开了一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统。该方法包括:根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数,利用贝尔曼最优Q函数构造本征状态邻域集合,并利用一致性对抗鲁棒算子刻画最优对抗Q函数模型,采用贝尔曼无穷范数形成训练目标,结合投影梯度下降算法直接获取对抗样本,或经区间界限传播估计Q值边界进而得到训练目标的替代上界目标,最后通过随机梯度下降或自适应动量估计等方法完成网络训练。本申请在保证最优鲁棒策略存在性的前提下,设计一种既具有对抗鲁棒性又具有训练稳定性的深度Q学习方法,使得训练出的智能体在干净环境和对抗环境中都能表现出一致的优良性能。
技术关键词
学习方法 梯度下降算法 邻域 网络 样本 估计算法 误差统计 参数 序列 学习系统 深度Q学习 鲁棒策略 决策 随机梯度下降 松弛 动态 数据处理技术 鲁棒性
系统为您推荐了相关专利信息
1
高通量基因测序的并行处理同步优化方法及系统
高通量基因测序 矩阵 参数 序列 凸优化算法
2
虚拟化用于网络连接的硬件弹性
网络接口控制器 端口 网络系统 虚拟化网络接口 电路
3
基于双目视觉的三维重建方法和装置
三维重建方法 深度匹配网络 双目相机 深度学习网络 视觉
4
用于分布式光伏-储能系统的智能负荷管控配电系统和方法
配电变压器 低压配电网 分布式光伏 主节点 有功功率
5
计及新能源接入的配电网线损异常研判及精准追踪方法、装置
配电网台区 台区线损率 数据生成模型 追踪方法 配电网线损数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号