摘要
本发明公开一种针对大语言模型的比特翻转攻击方法及装置,涉及大语言模型安全技术领域。方法包括:采用大语言模型生成包含问题的攻击数据集;将攻击数据集输入目标大语言模型中进行前向传播,输出文本数据;基于文本数据,构建困惑度损失函数;采用词性标注器对文本数据进行关键词元过滤处理,获得处理后的关键词元;基于处理后的关键词元,构建关键词元损失函数;将困惑度损失函数和关键词元损失函数进行整合处理,获得总损失函数;基于总损失函数计算每个参数的梯度值;基于梯度值,采用渐进式比特搜索方法搜索目标大语言模型的脆弱比特位完成翻转攻击。采用本发明可在保持目标大语言模型输出自然的前提下有效降低输出的准确性。
技术关键词
大语言模型
关键词
搜索方法
计算机可读取存储介质
文本
样本
计算机可读指令
数据
模块
参数
处理器
序列
处理单元
存储器
有效性
指标