摘要
本发明属于智能体安全领域,公开了一种多智能体应用程序攻击评估方法及相关装置,首先通过获取攻击动机与攻击约束构建投毒攻击提示词和后门触发器并加以组合生成后门攻击样本;接着识别多智能体应用程序中的潜在易中毒智能体,将后门攻击样本插入其指定位点生成中毒智能体;随后基于中毒智能体在多智能体应用程序中开展多轮智能体交流,模拟真实攻击场景下的交互过程,得到中毒多智能体应用程序;最后输入带有后门触发器的语句并依据中毒多智能体应用程序的输出结果生成攻击评估报告,提升了多智能体应用程序的投毒和后门攻击鲁棒性评估的全面性,为多智能体应用程序的优化提供有力依据,还能挖掘出多智能体应用程序中表现优秀的智能体。
技术关键词
后门
智能体交互
语句
样本
定位点
鲁棒性评估
可读存储介质
模块
处理器
评估系统
文本
计算机设备
指标
记忆
存储器
语义
报告
场景
算法