一种基于多层次风格表征的语言模型风格后门防御方法

正文

推荐专利

申请号：CN202510665106

申请日期：2025-05-22

公开号：CN120744911A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于多层次风格表征的语言模型风格后门防御方法，该方法通过构建多层次风格表征框架与自适应多尺度带宽选择方法，实现文本风格特征的全面覆盖与高维空间的高效建模，采用多维度可疑度评分机制与风格‑语义平衡修复技术，结合敏感神经元动态调制与适应性防御学习机制，在模型内部构建了可进化的防御体系，实现了从样本级到模型级、从静态防护到动态适应的立体化防御，其技术手段突破了传统单维度表征的局限性，显著提升了后门检测的准确率与语义保真度，且使防御过程兼具精准性和实用性，创新性强、资源消耗低、防御效果持续稳定，可有效应对复杂多变的文本风格后门攻击场景。

技术关键词

风格样本多层次后门预训练语言模型动态更新语义特征提取高斯混合模型文本策略评分机制修复技术定义度函数对抗性同义词

一种基于多层次风格表征的语言模型风格后门防御方法

站点导航

APP 下载