摘要
本发明提出了一种基于距离的多智能体深度强化学习隐蔽后门攻击方法,属于人工智能安全领域。所述方法通过精心选取后门距离阈值触发器,在训练过程中在特定时刻修改智能体的动作与奖励值,并使用修改后的后门数据来诱导智能体学习后门策略。实现了在不需要修改环境状态与智能体观测的条件下植入后门。在后门未触发时,智能体执行正常的策略。在后门触发后,智能体执行后门策略从而导致模型任务失败。克服了现有后门攻击方法必须通过修改环境或智能体观测来植入后门的局限性。
技术关键词
后门
深度强化学习
多智能体强化学习
策略
样本
距离信息
网络
三元组
数据
决策
因子
机制
算法
序列
定义
直线
模式
信号
系统为您推荐了相关专利信息
工控网络流量
可编程交换机
实时检测方法
网络流量异常检测
异常流量检测
蒙特卡洛树搜索方法
时序特征
概率分布函数
控制策略
图谱
数据扩充方法
解码器
变量
采集医学图像数据
梯度下降算法
无损测定方法
燕窝产品
图像识别模型
检测容器
样本