摘要
本发明提供了一种针对数据投毒的样本过滤后门防御方法、装置及设备,应用于自然语言处理领域,方法包括:基于RoBERTa模型对文本数据集进行表征学习,提取并存储数据样本高维特征;基于t‑SNE算法降维,将高维特征降维至低维特征;采用OPTICS算法对降维后的特征进行聚类,识别样本的密度簇;最后通过聚类结果过滤低密度区域的中毒样本,保留可信的正常数据。通过本发明的技术方案,能够在训练阶段有效过滤中毒样本同时保留正常样本,确保模型在训练过程中不受中毒样本的干扰,保持较高的实用性和准确性。
技术关键词
样本
文本
聚类
后门
队列
数据
算法
低密度
防御设备
核心
梯度下降法
特征提取模块
处理器
过滤模块
语义特征
存储器
自然语言
邻域
代表
系统为您推荐了相关专利信息
数据计算方法
节点
深度优先搜索算法
标识符
模版
数据分析系统
深度学习技术
数字孪生
决策
控制执行模块
序列
文档识别方法
元素
智能交互方法
语义分析模型