一种大语言模型越狱攻击防御方法及系统

AITNT
正文
推荐专利
一种大语言模型越狱攻击防御方法及系统
申请号:CN202511026083
申请日期:2025-07-24
公开号:CN120930718A
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了一种大语言模型越狱攻击防御方法及系统,属于人工智能安全技术领域,该方法的实现包括以下步骤:步骤1:接收用户文本提示;步骤2:计算输入文本与历史攻击文本的相似度;步骤3:高相似度直接拒绝处理,低相似度进入压缩流程;步骤4:提取文本特征并计算令牌保留概率;步骤5:选择高概率令牌形成压缩提示;步骤6:将意图信息传递给目标模型;步骤7:生成安全响应。本发明解决现有技术中计算开销大、成本高、防御规则滞后性、用户体验不一致的技术问题,其实现仅需要少量的额外计算开销和令牌成本,并能有效防御恶意攻击且不会影响大语言模型的实用性。
技术关键词
大语言模型 攻击防御方法 令牌 数据生成程序 意图 机器可读程序 压缩器 攻击防御装置 攻击防御系统 预定义阈值 文本编码器 恶意样本 特征提取器 计算机 标签 匹配模块 数据格式 处理器
系统为您推荐了相关专利信息
1
任务型对话系统训练和任务型对话系统部署方法、电子设备和存储介质
对话系统 融合语义 优化用户体验 电子设备 计算机程序产品
2
车辆尾门控制方法、装置、电子设备和存储介质
移动轨迹数据 控制车辆尾门开启 车辆后视摄像头 车辆钥匙 意图
3
一种电子设备系统功能的调节方法、装置及电子设备
电子设备系统 意图 接口 参数 语言模块
4
一种基于虚拟对象的图表展示方法及装置
虚拟对象 文本 图表展示方法 数据 视觉
5
茶叶知识问答方法、装置、电子设备及可读存储介质
光学字符识别技术 知识问答方法 茶叶分类 关键点 数据格式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号