一种基于谱聚类的小样本Bug Report有效性预测方法

正文

推荐专利

申请号：CN202510768128

申请日期：2025-06-10

公开号：CN120687130A

公开日期：2025-09-23

类型：发明专利

摘要

本发明涉及软件工程领域，公开了一种基于谱聚类的小样本Bug Report有效性预测方法。首先，对n个项目的全部Bug Report文本进行预处理，包括文本提取、规范化、分词、去除停用词及word2vec向量化；其次，使用谱聚类算法结合多个评估指标将项目向量聚类为k个簇C＝{C1,C2,...,Ck}；再其次，计算每个项目的干扰度指标，对簇内项目间干扰进行检测与绑定，对聚类结果进行调整，使每个簇内样本规模不小于3000与正负样本比例处于[1/1.6,1.6/1]范围内的同时，全局的标准差达到最小，最终得到调整后的m个簇C′＝{C1′,C2′,…,Cm′}；最后，对于调整后的m个簇，为每个簇单独训练CNN模型用于Bug Report有效性分类预测。训练得到m个CNN模型，使用训练好的模型预测新提交的Bug Report的有效性。本发明给出一种小规模样本项目的Bug Report有效性预测方法，此方法能有效缓解小样本项目中数据稀缺问题，提升预测准确率，具有良好的通用性与工程应用价值，能够大大提升软件维护和Bug修复的效率，节省大量人力成本，为小样本场景下的模型训练提供了新的路线。

技术关键词

有效性预测方法项目样本轮廓系数谱聚类算法文本指数指标词频统计训练算法分词小规模字典字母数值场景人力

一种基于谱聚类的小样本Bug Report有效性预测方法

站点导航

APP 下载