摘要
本发明属于大语言模型安全技术领域,公开了一种基于知识图谱自动化生成的大语言模型安全检测方法。该方法包括以下步骤:针对安全检测方向包含不同危险提示词的数据集进行预处理,用低资源语言替换初始提示词中的危险行为;通过提示词模板来利用大语言模型自动探索编码在其内部的危险知识,使用大语言模型来构建检测知识图谱;将检测知识图谱中的结构化信息转换为自然语言文本;设计两级安全评估器来判断是否能够绕过大语言模型的安全防护。本发明将初始提示词经过预处理和模板嵌套后尝试绕过被测试大语言模型的安全防护,使得通过模型是否生成检测知识图谱以及具体内容,来评估大语言模型的安全性能。
技术关键词
大语言模型
图谱
自然语言文本
自然语言转换
模板
自然语言生成技术
低资源语言
嵌套
数据
实体
令牌
模块
计算机设备
编码
定义
变量
关系
存储器