摘要
本申请提供了一种黑盒大语言模型的安全检测方法及装置、设备、介质,该方法包括:获取第一回答的嵌入向量和第二回答的嵌入向量;第一回答为被测的黑盒大语言模型针对攻击提示词的攻击输入返回的回复信息,第二回答为期望黑盒大语言模型返回的回复信息;基于第一回答的嵌入向量和第二回答的嵌入向量计算损失函数;若损失函数未达到预设条件,基于损失函数对攻击提示词进行优化,将优化后的攻击提示词作为下一轮循环的攻击提示词;若损失函数达到预设条件,则将本轮执行攻击提示词优化操作使用的攻击提示词作为获取的目标提示词,以利用所获取的目标提示词对黑盒大语言模型进行安全检测。本申请可以提升黑盒大语言模型安全检测的准确性和可靠性。
技术关键词
大语言模型
可读存储介质
处理器
存储器
计算机
训练集
电子设备
语义
参数
模块
系统为您推荐了相关专利信息
性能评估方法
偏差
标记硬盘
中央处理器
性能预测模型
时序检测电路
时序检测方法
信号
延时模块
非临时性计算机可读存储介质
知识图谱构建方法
三元组
实体
关系
面向异构数据