摘要
本申请公开了数据处理方法、装置、电子设备和存储介质,涉及数据处理技术领域,主要技术方案包括:获取样本数据集;对样本数据集进行预处理,得到第一数据集;对第一数据集进行聚类分析,生成包括每个异常点所属簇标识的聚类分析结果;利用训练好的异常检测模型,对第一数据集进行筛选和验证,得到异常检测结果;通过对比聚类分析结果和异常检测结果,确定样本数据集中的投毒样本;将投毒样本从样本数据集中移除,得到目标数据集。与目前相关技术相比,本申请通过综合应用聚类算法和异常检测模型将样本数据集清洗为目标数据集,提高了对不同类型投毒样本的识别能力,适用于不同类型的文本数据集,可有效防御文本后门攻击。
技术关键词
样本
森林模型
支持向量机模型
异常点
数据处理方法
标记
降维技术
电子设备
数据处理装置
数据处理技术
计算机
标识
聚类算法
处理器通信
指令
分析模块
系统为您推荐了相关专利信息
样本生成方法
文本
数据
训练语言模型
模型预训练
故障预测模型
故障预测数据
溯源系统
数字孪生模型
异常数据
数据处理方法
企业
资源优化配置
实时系统
资源需求数据