摘要
本发明公开了一种基于自然邻域加权的过采样算法,来解决传统过采样方法在样本合成过程中存在较大随机性,可能导致生成大量对少数类样本分类效果不明显甚至是噪声的合成样本的问题。首先,利用自然邻域算法识别并删除少数类中的异常点,以减少噪声样本的干扰。然后,通过计算少数类点与其周围自然邻居之间的变异系数,来合理分配每个少数类样本生成新样本的个数。最后,基于样本之间的距离关系,分配生成新样本的数量,距离较远的样本生成更多的新样本,从而更好地覆盖整个特征空间。本发明的方法能够有效提高少数类样本的代表性,并且生成的合成样本能更好地保持原数据的分布特征,克服了传统方法中随机性较大的问题。
技术关键词
邻域
邻居
算法
异常点
过采样方法
对象
噪声样本
标签
特征值
生成方式
数据
分布特征
因子
索引
坐标
关系
系统为您推荐了相关专利信息
电磁超声导波
激光测振装置
高温管道
阵列探头
信号调理模块
外观缺陷检测设备
图像采集系统
伺服机构
处理单元
视觉
收发机设计方法
GAN模型
瞬时信道状态信息
比特误码率
AWGN信道