一种基于多粒度变体生成与风格免疫的文本风格后门防御方法

AITNT
正文
推荐专利
一种基于多粒度变体生成与风格免疫的文本风格后门防御方法
申请号:CN202510665104
申请日期:2025-05-22
公开号:CN120744910A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种基于多粒度变体生成与风格免疫的文本风格后门防御方法,该方法通过结合显式和隐式特征捕捉文本风格与内容;利用大语言模型在词法、句法、风格、上下文等多个粒度上生成高质量的文本变体;并基于多维风险评估对可疑样本进行标签修正,利用风格中和变体等进行投票决策;最后通过风格不变表示学习、风格分离和风格对比训练,提升模型对风格变化的鲁棒性。本发明无需显式检测触发器,能有效防御包括风格后门在内的多种攻击,并通过系统性框架和自适应策略,在保证模型正常性能的同时,显著提升其安全性和鲁棒性。
技术关键词
风格 后门 文本 大语言模型 标签 特征分析提取 样本 训练数据处理 模板 语义特征 损失函数优化 高风险 鲁棒性 编码器 策略 机制 决策 在线
系统为您推荐了相关专利信息
1
一种基于自然语言处理的文本情感分析方法与系统
文本情感分析方法 主题模型分析 语句 自然语言 文本情感分析系统
2
一种基于ACGAN的RSVP脑电数据分类方法及系统
构建分类模型 更新模型参数 样本 标签 数据分类方法
3
一种基于状态空间模型的学习者认知层级细粒度追踪方法及系统
状态空间模型 层级 联合损失函数 知识点 神经网络结构
4
一种变更执行方法及相关产品
风险预测模型 文本 序列 执行装置 数据
5
一种神经网络特定误分类修复模型的构建方法
特征提取器 训练集 标签 样本 神经网络模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号