一种面向大语言模型的隐蔽后门攻击和有效防御方法

正文

推荐专利

申请号：CN202511000667

申请日期：2025-07-21

公开号：CN120874059A

公开日期：2025-10-31

类型：发明专利

摘要

本发明属于人工智能安全技术领域，涉及一种面向大语言模型(Large Language Model,LLM)的后门攻击与防御方法，开发了一种隐蔽性更强的后门攻击方法和优化防御技术，揭示并解决大语言模型在预训练和微调阶段存在的安全漏洞，从而提升模型的鲁棒性与可解释性。本发明通过API改写实现语义保留的后门植入，避免了传统触发器的显式特征，提高了攻击的隐蔽性；通过优化困惑度逻辑，增强了后门词的识别能力，显著降低了误报率；通过改进代码框架，提高了开发效率，减少了冗余流程，使系统更加简洁高效。

技术关键词

大语言模型后门文本训练语言模型数据防御算法风格代码结构语义加载器样本定义鲁棒性框架冗余批量逻辑标记阶段接口

系统为您推荐了相关专利信息

一种智能催收系统及方法

策略模拟退火算法智能催收方法遗传算法编码特征工程

事件检测方法和系统

机器学习模型日志事件检测方法 LSTM模型总量

一种适用于多隧道线路的轨道交通障碍物感知方法

障碍物感知方法数据获取模块障碍物识别相机模块雷达模块

一种自适应全景图像无缝拼接方法

图像无缝拼接方法关键特征点梯度直方图数据节点

一种乡村数据驱动的积分管理系统、装置及可读存储介质

积分管理系统资源库农民网络购物平台大数据平台

一种面向大语言模型的隐蔽后门攻击和有效防御方法

站点导航

APP 下载