摘要
本发明属于人工智能安全技术领域,涉及一种面向大语言模型(Large Language Model,LLM)的后门攻击与防御方法,开发了一种隐蔽性更强的后门攻击方法和优化防御技术,揭示并解决大语言模型在预训练和微调阶段存在的安全漏洞,从而提升模型的鲁棒性与可解释性。本发明通过API改写实现语义保留的后门植入,避免了传统触发器的显式特征,提高了攻击的隐蔽性;通过优化困惑度逻辑,增强了后门词的识别能力,显著降低了误报率;通过改进代码框架,提高了开发效率,减少了冗余流程,使系统更加简洁高效。
技术关键词
大语言模型
后门
文本
训练语言模型
数据
防御算法
风格
代码结构
语义
加载器
样本
定义
鲁棒性
框架
冗余
批量
逻辑
标记
阶段
接口
系统为您推荐了相关专利信息
策略
模拟退火算法
智能催收方法
遗传算法编码
特征工程
机器学习模型
日志
事件检测方法
LSTM模型
总量
障碍物感知方法
数据获取模块
障碍物识别
相机模块
雷达模块
图像无缝拼接方法
关键特征点
梯度直方图
数据
节点
积分管理系统
资源库
农民
网络购物平台
大数据平台