摘要
本发明涉及一种基于少数类簇加权的过采样算法。本发明首先对原始数据集中的所有少数类样本进行k‑means聚类,形成多个少数类簇,将少数类样本划为安全点,边界点和噪声点,并将噪声点删除。其次结合采样率计算出每个少数类簇需要合成的少数类样本的数量,然后根据边界点样本和安全点样本的分布情况,分别以不同的方法为边界点样本和安全点样本分布权重。最后根据每个少数类样本点的权重使用改进后的SMOTE算法生成少数类样本,使数据集达到平衡状态;利用UCI数据库中的6组标准版公开数据集进行测试,验证了该方法可以有效降低少数类样本的重叠率,提高分类器对少数类样本的分类精度。本发明更准确分析了数据集原始分布情况,降低了样本间的冗余性,从而提高了分类器的性能。
技术关键词
样本
采样率
算法
生成方式
密度
数据分布
噪声
连线
分类器
冗余
点分配
聚类
因子
代表
精度
系统为您推荐了相关专利信息
道路病害检测
可见光相机
实时数据处理
多模态
三维形状信息
恶意代码识别方法
可视化特征
多模态
统计特征
多头注意力机制
计算机存储介质
图像
切割单元
YOLO算法
网络