摘要
本发明公开了一种最优过采样和邻域修正的不平衡数据分类方法,属于不平衡数据分类领域,该方法包括基于密度峰值选取少数类子集中的基准样本,将基准样本的近邻样本作为人工样本;生成合成样本,并将合成样本加入少数类子集,根据更新后的少数类子集和多数类子集,得到平衡训练数据集;利用平衡训练数据集训练分类器;利用训练完成的分类器对测试样本集进行分类,得到各样本的分类结果,并根据各样本的分类结果获取确定样本集和不确定样本集;对不确定样本集中的不确定样本,基于校准矩阵对分类结果进行校准,根据校准后的分类概率确定不确定样本的分类结果。本发明解决了现有过采样方法在处理不平衡数据集时性能低的问题。
技术关键词
样本
数据分类方法
校准
基准
邻域
训练分类器
训练集
密度
K均值聚类算法
矩阵
过采样方法
表达式
K近邻
框架
指标
标记
定义
系统为您推荐了相关专利信息
鲁棒性
样本生成方法
随机梯度下降
电子设备
存储器
消噪方法
三维点云数据
组合算法
DBSCAN算法
灰狼算法
字符
模型训练方法
数据预测方法
样本
文本预测方法