摘要
本发明提出了一种基于安全梯度分布的合成过采样方法及系统,属于人工智能/数据挖掘技术的不平衡分类领域;本发明通过交叉熵梯度确定样本的梯度贡献,将梯度贡献分成多个区间并设置安全梯度阈值,将梯度贡献小于安全梯度阈值的区间作为安全梯度区间;按照梯度贡献将少数类样本分配到不同的梯度区间并进行安全梯度分布计算;以安全梯度区间内的样本作为根样本,以根样本的梯度右近邻作为辅助样本,基于安全梯度分布近似策略确定样本合成数量;采用线性插值方法为每个安全梯度区间合成伪样本,实现样本的合成过采样。本发明避免了噪声样本的误差积累且不依赖空间特征,能够保证数据集的类别平衡,提高了分类模型的性能。
技术关键词
过采样方法
线性插值方法
信用卡
数据挖掘技术
噪声样本
采样系统
处理器
程序
策略
可读存储介质
存储器
电子设备
模块
精度
计算机
误差
系统为您推荐了相关专利信息
冲压生产线
数字孪生
数字化建模技术
优化决策技术
故障指示器
置信度阈值
累积分布函数
标签
大语言模型
编码器
视觉
图像
线性变换矩阵
多传感器融合
激光雷达点云数据