一种基于自步过采样集成学习的静态软件缺陷预测方法

正文

推荐专利

申请号：CN202411618826

申请日期：2024-11-13

公开号：CN119645803B

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于自步过采样集成学习的静态软件缺陷预测方法，根据标签信息，将训练集划分为多数类和少数类集合；利用集成分类器的预测结果估计样本分类难度；根据估值对两类样本集合进行分箱处理，确定分箱的平均难度贡献；基于难度贡献更新自步学习因子和分箱的采样权重；基于分箱的采样权重，通过加权Bootstrap采样得到训练子集；对训练子集进行SMOTE过采样，随后训练基分类器；利用基分类器的预测性能确定权重，并更新集成分类器；重复直到指定规模的集成分类器，即软件缺陷预测模型。本发明克服了静态软件缺陷预测任务所面临的训练数据不足、类别不平衡等因素而导致模型训练过程缺乏针对性，以及模型训练后期因为过度关注噪声样本和异常样本而出现过拟合、影响缺陷预测性能的问题。

技术关键词

静态软件缺陷预测分箱集成分类器软件缺陷预测模型样本度量集成学习框架缺陷跟踪系统数据软件开发项目随机采样方法版本控制系统集成学习模型仓库处理器随机森林

一种基于自步过采样集成学习的静态软件缺陷预测方法

站点导航

APP 下载