摘要
本发明公开了一种大语言模型越狱攻击防御方法及系统,属于人工智能安全技术领域,该方法的实现包括以下步骤:步骤1:接收用户文本提示;步骤2:计算输入文本与历史攻击文本的相似度;步骤3:高相似度直接拒绝处理,低相似度进入压缩流程;步骤4:提取文本特征并计算令牌保留概率;步骤5:选择高概率令牌形成压缩提示;步骤6:将意图信息传递给目标模型;步骤7:生成安全响应。本发明解决现有技术中计算开销大、成本高、防御规则滞后性、用户体验不一致的技术问题,其实现仅需要少量的额外计算开销和令牌成本,并能有效防御恶意攻击且不会影响大语言模型的实用性。
技术关键词
大语言模型
攻击防御方法
令牌
数据生成程序
意图
机器可读程序
压缩器
攻击防御装置
攻击防御系统
预定义阈值
文本编码器
恶意样本
特征提取器
计算机
标签
匹配模块
数据格式
处理器
系统为您推荐了相关专利信息
对话系统
融合语义
优化用户体验
电子设备
计算机程序产品
移动轨迹数据
控制车辆尾门开启
车辆后视摄像头
车辆钥匙
意图
光学字符识别技术
知识问答方法
茶叶分类
关键点
数据格式