一种基于多粒度变体生成与风格免疫的文本风格后门防御方法

正文

推荐专利

申请号：CN202510665104

申请日期：2025-05-22

公开号：CN120744910A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于多粒度变体生成与风格免疫的文本风格后门防御方法，该方法通过结合显式和隐式特征捕捉文本风格与内容；利用大语言模型在词法、句法、风格、上下文等多个粒度上生成高质量的文本变体；并基于多维风险评估对可疑样本进行标签修正，利用风格中和变体等进行投票决策；最后通过风格不变表示学习、风格分离和风格对比训练，提升模型对风格变化的鲁棒性。本发明无需显式检测触发器，能有效防御包括风格后门在内的多种攻击，并通过系统性框架和自适应策略，在保证模型正常性能的同时，显著提升其安全性和鲁棒性。

技术关键词

风格后门文本大语言模型标签特征分析提取样本训练数据处理模板语义特征损失函数优化高风险鲁棒性编码器策略机制决策在线

系统为您推荐了相关专利信息

一种基于自然语言处理的文本情感分析方法与系统

文本情感分析方法主题模型分析语句自然语言文本情感分析系统

一种基于ACGAN的RSVP脑电数据分类方法及系统

构建分类模型更新模型参数样本标签数据分类方法

一种基于状态空间模型的学习者认知层级细粒度追踪方法及系统

状态空间模型层级联合损失函数知识点神经网络结构

一种变更执行方法及相关产品

风险预测模型文本序列执行装置数据

一种神经网络特定误分类修复模型的构建方法

特征提取器训练集标签样本神经网络模型

一种基于多粒度变体生成与风格免疫的文本风格后门防御方法

站点导航

APP 下载