一种大语言模型的提示词攻击检测方法和装置

正文

推荐专利

申请号：CN202410892196

申请日期：2024-07-04

公开号：CN118445815B

公开日期：2024-10-25

类型：发明专利

摘要

本申请提供一种大语言模型的提示词攻击检测方法和装置，涉及信息处理技术领域。该方法，获取待处理提示词信息；对所述待处理提示词信息进行类型识别，得到所述待处理提示词信息对应的提示词类型信息；基于所述提示词类型信息，确定所述待处理提示词信息对应的攻击判断模型；依次将所述待处理提示词信息输入到所述攻击判断模型的各个所述判断子模型，以得到与各个所述判断子模型分别对应的子模型评估信息；基于所述子模型评估信息，判断所述待处理提示词信息是否是针对所述大语言模型的攻击信息。该方法，可以提升大语言模型在提示词处理过程中的安全性。

技术关键词

大语言模型攻击检测方法风险语义攻击检测装置逻辑信息处理技术处理器可读存储介质存储器计算机电子设备关系

系统为您推荐了相关专利信息

基于互动的模型性能提升方法、装置、设备及存储介质

性能提升方法文本生成模型图片答案实体

一种增强大模型鲁棒性的低复杂度安全方法

大语言模型鲁棒性生成攻击样本自然语言推理复杂度

基于通用触发器的黑盒跨任务后门提示攻击方法

通用触发器预训练语言模型强化学习框架标签后门

机器翻译风格一致性修复方法及相关装置

风格文本修复方法标签语义

客户风险识别方法、装置、服务器及存储介质

客户风险识别方法照片图谱文本特征向量图像特征向量

一种大语言模型的提示词攻击检测方法和装置

站点导航

APP 下载