摘要
本发明涉及一种BERTopic‑SBERT混合驱动的重复缺陷报告检测方法,包括如下步骤:选取公开的缺陷报告原始数据,对所有缺陷报告原始数据进行标记得到缺陷报告原始数据的真实标签;缺陷报告原始数据集输入数据预处理模块进行数据特征提取,将提取出的所有数据特征进行数据预处理后得到训练集同时使用训练集构建缺陷报告组;利用所有缺陷报告组生成正样本对集合和负样本对集合;然后计算每个缺陷报告对的主题相似度和语义相似度;将缺陷报告对的主题相似度值和语义相似度值进行结合,然后将结合结果输入缺陷报告分类模块,得到重复报告分类结果。本发明方法的使用可以使项目出现差异时拥有更强大的泛化性能和鲁棒性。
技术关键词
报告
样本
重复缺陷
语义
数据特征提取
表达式
阈值机制
锚点
模块
逻辑回归分类器
文本
密度聚类算法
交叉熵法
动态主题
核心
字段
编码