摘要
本发明涉及一种高效查询引导搜索的越狱攻击防御方法,包括:搜索空间初始化,对用户提示messageuser应用位置加权的TF‑IDF排序方法,构造包含核心问题的降序排序序列;选取降序序列中的分句,进行Soft‑PPL处理,获取目标大模型对处理后的分句的响应;对分句响应进行拒答检测,若检出拒答,则退出算法,返回分句的拒答输出;对分句输入进行安全评估,若检出有害,则退出算法,返回有害原因;遍历降序排序序列中的分句,重复进行拒答检测及安全评估,直到达到预设迭代次数或遍历完排序序列,若未检测出有害则返回模型对完整用户提示的响应。本发明旨在提升模型在推理阶段对越狱攻击的鲁棒性,并减少无害查询的过度防御。
技术关键词
攻击防御方法
排序方法
序列
对象
算法
文本
指数
鲁棒性
核心
表达式
风险
分词
语句
语义
模板
阶段
模式
系统为您推荐了相关专利信息
作业车间调度方法
移动机器人执行
局部搜索算法
模拟退火思想
存储计算机程序
视频会议平台
资源调度系统
资源调度方法
动态调度算法
资源预留