摘要
本发明属于人工智能领域,公开了一种智能体助手的越狱攻击防御方法及相关装置,包括获取用户指令并基于预训练的越狱预测模型对用户指令进行越狱评估,得到用户指令的第一越狱评估结果;当第一越狱评估结果为存在越狱行为时,生成终止智能体助手操作的控制指令并发送至智能体助手;否则,获取智能体助手当前的动作序列文本,并采用正则表达式匹配方法、预训练的深度学习模型和基于系统提示词的大语言模型识别动作序列文本是否存在越狱行为,得到第二越狱评估结果;当第二越狱评估结果为存在越狱行为时,生成终止智能体助手当前操作的控制指令并发送至智能体助手,能够全面且准确的进行智能体助手的越狱攻击防御,保证智能体助手的安全稳定运行。
技术关键词
攻击防御方法
深度学习模型
文本
指令
序列
大语言模型
攻击防御系统
三元组
可读存储介质
风险
处理器
构建系统
计算机设备
语义
格式化
多模态
模块
存储器
参数
系统为您推荐了相关专利信息
四面体模型
集群机器人系统
分布式视觉
生成环境地图
多模态信息
配置数据处理方法
非结构化文本
历史性能数据
服务器集群配置
社区发现算法