一种大语言模型越狱攻击防御方法及系统

正文

推荐专利

一种大语言模型越狱攻击防御方法及系统

申请号：CN202511026083

申请日期：2025-07-24

公开号：CN120930718A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种大语言模型越狱攻击防御方法及系统，属于人工智能安全技术领域，该方法的实现包括以下步骤：步骤1：接收用户文本提示；步骤2：计算输入文本与历史攻击文本的相似度；步骤3：高相似度直接拒绝处理，低相似度进入压缩流程；步骤4：提取文本特征并计算令牌保留概率；步骤5：选择高概率令牌形成压缩提示；步骤6：将意图信息传递给目标模型；步骤7：生成安全响应。本发明解决现有技术中计算开销大、成本高、防御规则滞后性、用户体验不一致的技术问题，其实现仅需要少量的额外计算开销和令牌成本，并能有效防御恶意攻击且不会影响大语言模型的实用性。

技术关键词

大语言模型攻击防御方法令牌数据生成程序意图机器可读程序压缩器攻击防御装置攻击防御系统预定义阈值文本编码器恶意样本特征提取器计算机标签匹配模块数据格式处理器

系统为您推荐了相关专利信息

任务型对话系统训练和任务型对话系统部署方法、电子设备和存储介质

对话系统融合语义优化用户体验电子设备计算机程序产品

车辆尾门控制方法、装置、电子设备和存储介质

移动轨迹数据控制车辆尾门开启车辆后视摄像头车辆钥匙意图

一种电子设备系统功能的调节方法、装置及电子设备

电子设备系统意图接口参数语言模块

一种基于虚拟对象的图表展示方法及装置

虚拟对象文本图表展示方法数据视觉

茶叶知识问答方法、装置、电子设备及可读存储介质

光学字符识别技术知识问答方法茶叶分类关键点数据格式

一种大语言模型越狱攻击防御方法及系统

站点导航

APP 下载