摘要
本发明公开了一种基于遗传算法与注意力分布的大语言模型安全漏洞测试方法、设备、介质,包括:选取AdvBench数据集作为漏洞测试问题;对AdvBench数据集中的一测试问题样本进行恶意词汇提取与词元分解;随机选取若干个词元作为初始种群,计算并放大选取的词元对应的注意力得分;对初始种群按照变异概率进行编码翻转,从而对种群进行优化;将优化后的种群对应的测试问题输入至大语言模型,对模型响应进行判定;当模型响应为拒绝时,则大语言模型不存在安全漏洞;当模型响应为合规时,则大语言模型存在安全漏洞。
技术关键词
遗传算法
测试方法
注意力
样本
表达式
人工智能模型
种子
编码
数据
处理器
语句
计算机程序产品
矩阵
漏洞
存储器
自然语言
可读存储介质
索引
交叉点
系统为您推荐了相关专利信息
设计规划方法
沉积模拟实验
参数
机器学习模型
气候
眼疾
光学相干断层成像
图像训练样本
网络
融合特征
敏感性分析方法
多模型
蒙特卡洛算法
嵌套结构
参数