摘要
本发明公开了一种基于自步过采样集成学习的静态软件缺陷预测方法,根据标签信息,将训练集划分为多数类和少数类集合;利用集成分类器的预测结果估计样本分类难度;根据估值对两类样本集合进行分箱处理,确定分箱的平均难度贡献;基于难度贡献更新自步学习因子和分箱的采样权重;基于分箱的采样权重,通过加权Bootstrap采样得到训练子集;对训练子集进行SMOTE过采样,随后训练基分类器;利用基分类器的预测性能确定权重,并更新集成分类器;重复直到指定规模的集成分类器,即软件缺陷预测模型。本发明克服了静态软件缺陷预测任务所面临的训练数据不足、类别不平衡等因素而导致模型训练过程缺乏针对性,以及模型训练后期因为过度关注噪声样本和异常样本而出现过拟合、影响缺陷预测性能的问题。
技术关键词
静态软件缺陷预测
分箱
集成分类器
软件缺陷预测模型
样本
度量
集成学习框架
缺陷跟踪系统
数据
软件开发项目
随机采样方法
版本控制系统
集成学习模型
仓库
处理器
随机森林