摘要
本发明公开了一种多智能体协同的大型语言模型伪装攻击方法及系统,属于大型语言模型安全技术领域,包括:根据攻击目标语义与被攻击语言模型,结合梯度优化获得词汇候选集,基于词汇候选集生成附加扰动词序列的初始攻击提示语;基于辅助语言模型对扰动词序列的每个位置进行语义候选生成操作,获得语义候选集合;基于语义候选集合与词汇候选集获得伪装扰动词序列,基于伪装扰动序列获得伪装提示语;将伪装提示语输入被攻击语言模型,验证生成响应与目标非法响应的匹配程度,根据验证结果反馈用于优化词汇候选集的信号。本发明通过多智能体协同联动,在攻击成功率与语言自然性之间实现动态均衡,显著提升对安全机制的规避能力与实际部署适应性。
技术关键词
语义
多智能体协同
序列
生成智能
字符
策略
解码方法
度函数
超参数
信号
检测器
变量
机制
动态
系统为您推荐了相关专利信息
低烟无卤线缆
低烟无卤电缆
表面缺陷检测方法
像素点
深度图
人类副流感病毒
环介导等温扩增
引物
核苷酸
试剂盒
导航方法
动作策略
图像编码器
解码器
神经网络模型
资源分配策略
规划
任务调度
资源需求数据
运筹优化技术