摘要
本发明涉及一种基于自然最近邻的混合采样算法。该算法结合样本的空间分布密度、自然最近邻关系以及相似度评估机制,实现对噪声样本的识别与剔除、多数类样本的欠采样处理以及少数类样本的有针对性过采样,从而改善不平衡数据集的学习效果。该算法在欠采样时删除掉对分类帮助不大的样本,在合成新样本时考虑到每个样本之间的信息差异的情况会为每个少数类低密度样本分配权重,权重越高的样本越优先参与合成新的样本,即可以保证新生成的样本不会和原本数据集中的某些样本相似或重叠,又可以避免产生新的噪声样本,既可以保证整体数据集分布较为均匀且还可以有助于数据分类。
技术关键词
噪声样本
低密度
高密度
相似性度量方法
算法
数据分类
矩阵
邻域
权重机制
决策
代表
概念
特征值
线段
比率
系统为您推荐了相关专利信息
多尺度注意力机制
资源
形式化验证方法
节点
决策
无人机
定位方法
实景三维模型
双向特征金字塔
坐标系
行人重识别系统
轨迹
摄像装置
模糊阈值
图像增强
分布式电源
配电网模型
粒子群算法
配网
接入节点