一种大语言模型的提示词攻击检测方法和装置

AITNT
正文
推荐专利
一种大语言模型的提示词攻击检测方法和装置
申请号:CN202410892196
申请日期:2024-07-04
公开号:CN118445815B
公开日期:2024-10-25
类型:发明专利
摘要
本申请提供一种大语言模型的提示词攻击检测方法和装置,涉及信息处理技术领域。该方法,获取待处理提示词信息;对所述待处理提示词信息进行类型识别,得到所述待处理提示词信息对应的提示词类型信息;基于所述提示词类型信息,确定所述待处理提示词信息对应的攻击判断模型;依次将所述待处理提示词信息输入到所述攻击判断模型的各个所述判断子模型,以得到与各个所述判断子模型分别对应的子模型评估信息;基于所述子模型评估信息,判断所述待处理提示词信息是否是针对所述大语言模型的攻击信息。该方法,可以提升大语言模型在提示词处理过程中的安全性。
技术关键词
大语言模型 攻击检测方法 风险 语义 攻击检测装置 逻辑 信息处理技术 处理器 可读存储介质 存储器 计算机 电子设备 关系
系统为您推荐了相关专利信息
1
基于互动的模型性能提升方法、装置、设备及存储介质
性能提升方法 文本生成模型 图片 答案 实体
2
一种增强大模型鲁棒性的低复杂度安全方法
大语言模型 鲁棒性 生成攻击样本 自然语言推理 复杂度
3
基于通用触发器的黑盒跨任务后门提示攻击方法
通用触发器 预训练语言模型 强化学习框架 标签 后门
4
机器翻译风格一致性修复方法及相关装置
风格 文本 修复方法 标签 语义
5
客户风险识别方法、装置、服务器及存储介质
客户风险识别方法 照片 图谱 文本特征向量 图像特征向量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号