摘要
本说明书实施例公开了一种提示语盗取攻击的检测方法,将包含用户提示语和系统提示语的最终提示语输入大语言模型,检测大语言模型在输出结果的过程中,是否存在从最终提示语中读取至少部分系统提示语,并将读取的至少部分系统提示语作为至少部分输出的结果的操作,若是,则可确定用户提示语存在提示语盗取攻击的行为。该方法不需要依赖基于先验知识的拦截规则对存在提示语盗取攻击行为的用户提示语进行拦截,直接以大语言模型实际执行的操作为依据判断是否受到攻击,因此各种试图盗取系统提示语的用户提示语均难以绕过上述检测方法,可有效防御提示语盗取攻击。
技术关键词
大语言模型
服务端
拦截规则
处理器
程序
样本
输入模块
可读存储介质
指令
存储器
客户端
电子设备
日志
计算机
参数
系统为您推荐了相关专利信息
索引构建方法
数据
梯度提升树模型
模拟退火算法
计算机可执行指令
关系抽取方法
注意力
标签
字符串匹配算法
大语言模型