一种针对大语言模型的比特翻转攻击方法及装置

正文

推荐专利

申请号：CN202511481729

申请日期：2025-10-16

公开号：CN120952081A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开一种针对大语言模型的比特翻转攻击方法及装置，涉及大语言模型安全技术领域。方法包括：采用大语言模型生成包含问题的攻击数据集；将攻击数据集输入目标大语言模型中进行前向传播，输出文本数据；基于文本数据，构建困惑度损失函数；采用词性标注器对文本数据进行关键词元过滤处理，获得处理后的关键词元；基于处理后的关键词元，构建关键词元损失函数；将困惑度损失函数和关键词元损失函数进行整合处理，获得总损失函数；基于总损失函数计算每个参数的梯度值；基于梯度值，采用渐进式比特搜索方法搜索目标大语言模型的脆弱比特位完成翻转攻击。采用本发明可在保持目标大语言模型输出自然的前提下有效降低输出的准确性。

技术关键词

大语言模型关键词搜索方法计算机可读取存储介质文本样本计算机可读指令数据模块参数处理器序列处理单元存储器有效性指标

一种针对大语言模型的比特翻转攻击方法及装置

站点导航

APP 下载