一种高效查询引导搜索的越狱攻击防御方法

AITNT
正文
推荐专利
一种高效查询引导搜索的越狱攻击防御方法
申请号:CN202510463795
申请日期:2025-04-14
公开号:CN120316244A
公开日期:2025-07-15
类型:发明专利
摘要
本发明涉及一种高效查询引导搜索的越狱攻击防御方法,包括:搜索空间初始化,对用户提示messageuser应用位置加权的TF‑IDF排序方法,构造包含核心问题的降序排序序列;选取降序序列中的分句,进行Soft‑PPL处理,获取目标大模型对处理后的分句的响应;对分句响应进行拒答检测,若检出拒答,则退出算法,返回分句的拒答输出;对分句输入进行安全评估,若检出有害,则退出算法,返回有害原因;遍历降序排序序列中的分句,重复进行拒答检测及安全评估,直到达到预设迭代次数或遍历完排序序列,若未检测出有害则返回模型对完整用户提示的响应。本发明旨在提升模型在推理阶段对越狱攻击的鲁棒性,并减少无害查询的过度防御。
技术关键词
攻击防御方法 排序方法 序列 对象 算法 文本 指数 鲁棒性 核心 表达式 风险 分词 语句 语义 模板 阶段 模式
系统为您推荐了相关专利信息
1
基于多容量移动机器人的作业车间调度方法及系统
作业车间调度方法 移动机器人执行 局部搜索算法 模拟退火思想 存储计算机程序
2
多平台视频会议的MCU资源调度系统及调度方法
视频会议平台 资源调度系统 资源调度方法 动态调度算法 资源预留
3
一种基于人工智能的汽车模拟驾驶测试方法及相关设备
测试方法 车型 风险预测模型 速度 高风险
4
贴边清扫路径规划方法及清扫机器人
清扫路径规划方法 墙面 路径规划算法 线段 地图
5
一种跨系统数据对象的赋值方法、装置、设备及存储介质
对象 业务系统 字段 赋值方法 跨系统数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号