摘要
本发明属于人工智能领域,公开了一种基于输出响应的智能体助手攻击防御方法及相关装置,包括获取智能体助手基于当前感知界面和当前操作的当前输出响应;进行当前输出响应的对抗性检测,得到状态安全性检测结果;基于当前输出响应构建当前状态节点并插入至状态树中,以及从状态树中获取第一路径信息和第二路径信息;对第一路径信息进行越狱性判定,得到路径安全性检测结果;对第二路径信息进行任务完成可能度判定,得到路径完整性检测结果;当状态安全性检测结果、路径安全性检测结果和路径完整性检测结果均为通过时,智能体助手继续执行;否则,回滚至状态树中设定状态节点对应的状态。增强智能体助手的稳健性和适应性,保障智能体助手安全应用。
技术关键词
安全性检测
攻击防御方法
大语言模型
节点
对抗性
攻击防御系统
指令
保障智能
可读存储介质
数据获取模块
处理器
样本
界面
计算机设备
文本
存储器
日志
队列
系统为您推荐了相关专利信息
数字孪生模型
液冷冷板
回液
机器学习算法
多节点
教学交互系统
信息处理模块
学生
分析模块
生物识别技术