摘要
本发明涉及软件工程领域,公开了一种基于谱聚类的小样本Bug Report有效性预测方法。首先,对n个项目的全部Bug Report文本进行预处理,包括文本提取、规范化、分词、去除停用词及word2vec向量化;其次,使用谱聚类算法结合多个评估指标将项目向量聚类为k个簇C={C1,C2,...,Ck};再其次,计算每个项目的干扰度指标,对簇内项目间干扰进行检测与绑定,对聚类结果进行调整,使每个簇内样本规模不小于3000与正负样本比例处于[1/1.6,1.6/1]范围内的同时,全局的标准差达到最小,最终得到调整后的m个簇C′={C1′,C2′,…,Cm′};最后,对于调整后的m个簇,为每个簇单独训练CNN模型用于Bug Report有效性分类预测。训练得到m个CNN模型,使用训练好的模型预测新提交的Bug Report的有效性。本发明给出一种小规模样本项目的Bug Report有效性预测方法,此方法能有效缓解小样本项目中数据稀缺问题,提升预测准确率,具有良好的通用性与工程应用价值,能够大大提升软件维护和Bug修复的效率,节省大量人力成本,为小样本场景下的模型训练提供了新的路线。
技术关键词
有效性预测方法
项目
样本
轮廓系数
谱聚类算法
文本
指数
指标
词频统计
训练算法
分词
小规模
字典
字母
数值
场景
人力