一种高效查询引导搜索的越狱攻击防御方法

正文

推荐专利

一种高效查询引导搜索的越狱攻击防御方法

申请号：CN202510463795

申请日期：2025-04-14

公开号：CN120316244A

公开日期：2025-07-15

类型：发明专利

摘要

本发明涉及一种高效查询引导搜索的越狱攻击防御方法，包括：搜索空间初始化，对用户提示messageuser应用位置加权的TF‑IDF排序方法，构造包含核心问题的降序排序序列；选取降序序列中的分句，进行Soft‑PPL处理，获取目标大模型对处理后的分句的响应；对分句响应进行拒答检测，若检出拒答，则退出算法，返回分句的拒答输出；对分句输入进行安全评估，若检出有害，则退出算法，返回有害原因；遍历降序排序序列中的分句，重复进行拒答检测及安全评估，直到达到预设迭代次数或遍历完排序序列，若未检测出有害则返回模型对完整用户提示的响应。本发明旨在提升模型在推理阶段对越狱攻击的鲁棒性，并减少无害查询的过度防御。

技术关键词

攻击防御方法排序方法序列对象算法文本指数鲁棒性核心表达式风险分词语句语义模板阶段模式

系统为您推荐了相关专利信息

基于多容量移动机器人的作业车间调度方法及系统

作业车间调度方法移动机器人执行局部搜索算法模拟退火思想存储计算机程序

多平台视频会议的MCU资源调度系统及调度方法

视频会议平台资源调度系统资源调度方法动态调度算法资源预留

一种基于人工智能的汽车模拟驾驶测试方法及相关设备

测试方法车型风险预测模型速度高风险

贴边清扫路径规划方法及清扫机器人

清扫路径规划方法墙面路径规划算法线段地图

一种跨系统数据对象的赋值方法、装置、设备及存储介质

对象业务系统字段赋值方法跨系统数据

一种高效查询引导搜索的越狱攻击防御方法

站点导航

APP 下载