摘要
本发明公开了一种基于多层次风格表征的语言模型风格后门防御方法,该方法通过构建多层次风格表征框架与自适应多尺度带宽选择方法,实现文本风格特征的全面覆盖与高维空间的高效建模,采用多维度可疑度评分机制与风格‑语义平衡修复技术,结合敏感神经元动态调制与适应性防御学习机制,在模型内部构建了可进化的防御体系,实现了从样本级到模型级、从静态防护到动态适应的立体化防御,其技术手段突破了传统单维度表征的局限性,显著提升了后门检测的准确率与语义保真度,且使防御过程兼具精准性和实用性,创新性强、资源消耗低、防御效果持续稳定,可有效应对复杂多变的文本风格后门攻击场景。
技术关键词
风格
样本
多层次
后门
预训练语言模型
动态更新
语义特征提取
高斯混合模型
文本
策略
评分机制
修复技术
定义
度函数
对抗性
同义词