一种面向大语言模型的隐蔽后门攻击和有效防御方法

AITNT
正文
推荐专利
一种面向大语言模型的隐蔽后门攻击和有效防御方法
申请号:CN202511000667
申请日期:2025-07-21
公开号:CN120874059A
公开日期:2025-10-31
类型:发明专利
摘要
本发明属于人工智能安全技术领域,涉及一种面向大语言模型(Large Language Model,LLM)的后门攻击与防御方法,开发了一种隐蔽性更强的后门攻击方法和优化防御技术,揭示并解决大语言模型在预训练和微调阶段存在的安全漏洞,从而提升模型的鲁棒性与可解释性。本发明通过API改写实现语义保留的后门植入,避免了传统触发器的显式特征,提高了攻击的隐蔽性;通过优化困惑度逻辑,增强了后门词的识别能力,显著降低了误报率;通过改进代码框架,提高了开发效率,减少了冗余流程,使系统更加简洁高效。
技术关键词
大语言模型 后门 文本 训练语言模型 数据 防御算法 风格 代码结构 语义 加载器 样本 定义 鲁棒性 框架 冗余 批量 逻辑 标记 阶段 接口
系统为您推荐了相关专利信息
1
一种智能催收系统及方法
策略 模拟退火算法 智能催收方法 遗传算法编码 特征工程
2
事件检测方法和系统
机器学习模型 日志 事件检测方法 LSTM模型 总量
3
一种适用于多隧道线路的轨道交通障碍物感知方法
障碍物感知方法 数据获取模块 障碍物识别 相机模块 雷达模块
4
一种自适应全景图像无缝拼接方法
图像无缝拼接方法 关键特征点 梯度直方图 数据 节点
5
一种乡村数据驱动的积分管理系统、装置及可读存储介质
积分管理系统 资源库 农民 网络购物平台 大数据平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号