摘要
本发明公开了一种针对离线强化学习决策模式多样性的投毒攻击方法、系统、程序、设备及存储介质,属于离线强化学习技术领域。本发明方法首先获取离线强化学习数据集中的状态空间、动作空间及奖励空间,分析数据集中连续状态‑动作对组成的经验决策序列的多样性,将数据集中较为罕见的决策序列作为关键序列。然后,针对这些关键序列对应的数据,本发明添加了精心构造的微小扰动来降低数据集中经验决策序列的多样性,以此实现对离线强化学习数据集的有效投毒。本发明攻击方法以极低的攻击成本,实现了对离线强化学习模型的有效干扰,并确定了其在实际应用中的有效性和可行性。
技术关键词
决策
序列
离线
数据
核心
聚类方法
模式
强化学习技术
智能体模型
强化学习模型
编码器
模块
肘部法则
计算机装置
关键点
计算机程序产品
因子
处理器
标签
系统为您推荐了相关专利信息
智能预警系统
大语言模型
任务调度
集成模块
风险
全生命周期数据
水产品溯源
网络平台
管理方法
全生命周期管理
触控点
融合控制方法
意图
生成分类模型
触控设备
专用数据集
物品检测
深度学习模型
识别方法
人体姿态识别技术