摘要
本发明涉及大模型安全测试领域,具体提供了一种大模型输出内容安全测试方法及装置,具有如下步骤:S1、准备和管理测试所需的测试集、敏感词库和正则表达式;S2、读取测试集,根据测试集和大模型接口信息获取大模型输出结果;S3、根据敏感词库和正则表达式判断大模型输出内容是否安全;S4、利用大模型和定向Prompt根据大模型输出内容提取语义风险特征,并经置信度验证后,自动入库;S5、将每个请求的信息结果保存到文件中。与现有技术相比,本发明能够减少测试时间,提高评估效率;并利用大模型输出结果动态构建敏感词库的方法,可以有效评估大模型输出内容的安全性。
技术关键词
测试方法
规则集
机器可读程序
生成测试用例
对抗性
重试机制
语义特征
动态
高风险
接口
格式
存储器
处理器
日志
索引
报告
文本
核心