摘要
本发明公开了一种基于蒙特卡洛树搜索算法的大语言模型语音漏洞测试方法、设备、介质,包括:获取若干场景模板作为种子池,将AdvBench数据集中的样本作为有害问题;基于蒙特卡洛树搜索算法从种子池中筛选得到能够攻击成功的场景模板作为越狱模板;对筛选得到的越狱模板进行若干变异操作,将有害问题插入至变异后的越狱模板中;将变异后的越狱模板以及有害问题转换为语音模态,将语音模态输入至大语言模型中,得到模型响应;通过预先训练好的判断模型判断所述模型响应为拒绝或合规;当模型响应为拒绝时,则大语言模型不存在安全漏洞;当模型响应为合规时,则大语言模型存在安全漏洞。
技术关键词
漏洞测试方法
蒙特卡洛树
搜索算法
模板
语音
种子
场景
节点
表达式
处理器
训练集
计算机程序产品
存储器
阶段
可读存储介质
数据
标签
样本
电子设备
系统为您推荐了相关专利信息
强化学习框架
强化学习模型
深度Q网络
节点
广度优先搜索算法
电路故障诊断
断控制单元
自行车充电器
预警系统
信息发送单元
数据分析模型
数据分析方法
数据分析系统
模板
超参数
访客自助
自然语言
交互技术
大语言模型
数据存储单元
大语言模型
识别异常信息
搜索算法
诊断方法
聚类