摘要
本发明公开了一种针对离线强化学习的隐蔽数据投毒攻击方法、系统、程序、设备及存储介质,属于离线强化学习技术领域。本发明方法采用关键时间步动态投毒攻击方法,通过对重要性较高的样本进行动态扰动,实现高效隐蔽的攻击效果。该方法首先通过理论分析发现时序差分误差对于模型学习过程的重要影响,分析得出时序差分误差较大的时间步代表离线强化学习的薄弱环节,将其作为投毒目标选择的依据。然后又提出了基于双目标优化的投毒方法,在最小化扰动幅度的同时,最大化攻击对模型性能产生的负面影响,为每个投毒样本生成最优扰动幅度。本发明以极低的攻击成本,实现了对离线强化学习模型的有效干扰,并确定了其在实际应用中的有效性和可行性。
技术关键词
离线
数据
误差
模块
强化学习技术
智能体模型
强化学习模型
强化学习算法
计算机装置
规划算法
计算机程序产品
处理器
指令
时序
可读存储介质
存储器
样本
有效性
动态
系统为您推荐了相关专利信息
虚拟现实头盔设备
光学动作捕捉设备
摄像装置
虚拟现实系统
录制方法
储能电容器
电路仿真模型
计算机断层扫描装置
脉冲
声学检测装置
数据传输系统
保密通信
时间段
密钥生成效率
物联网设备