摘要
本发明公开了一种基于多粒度变体生成与风格免疫的文本风格后门防御方法,该方法通过结合显式和隐式特征捕捉文本风格与内容;利用大语言模型在词法、句法、风格、上下文等多个粒度上生成高质量的文本变体;并基于多维风险评估对可疑样本进行标签修正,利用风格中和变体等进行投票决策;最后通过风格不变表示学习、风格分离和风格对比训练,提升模型对风格变化的鲁棒性。本发明无需显式检测触发器,能有效防御包括风格后门在内的多种攻击,并通过系统性框架和自适应策略,在保证模型正常性能的同时,显著提升其安全性和鲁棒性。
技术关键词
风格
后门
文本
大语言模型
标签
特征分析提取
样本
训练数据处理
模板
语义特征
损失函数优化
高风险
鲁棒性
编码器
策略
机制
决策
在线
系统为您推荐了相关专利信息
文本情感分析方法
主题模型分析
语句
自然语言
文本情感分析系统
构建分类模型
更新模型参数
样本
标签
数据分类方法
状态空间模型
层级
联合损失函数
知识点
神经网络结构