一种BERTopic-SBERT混合驱动的重复缺陷报告检测方法

正文

推荐专利

申请号：CN202510913483

申请日期：2025-07-03

公开号：CN120804332A

公开日期：2025-10-17

类型：发明专利

摘要

本发明涉及一种BERTopic‑SBERT混合驱动的重复缺陷报告检测方法，包括如下步骤：选取公开的缺陷报告原始数据，对所有缺陷报告原始数据进行标记得到缺陷报告原始数据的真实标签；缺陷报告原始数据集输入数据预处理模块进行数据特征提取，将提取出的所有数据特征进行数据预处理后得到训练集同时使用训练集构建缺陷报告组；利用所有缺陷报告组生成正样本对集合和负样本对集合；然后计算每个缺陷报告对的主题相似度和语义相似度；将缺陷报告对的主题相似度值和语义相似度值进行结合，然后将结合结果输入缺陷报告分类模块，得到重复报告分类结果。本发明方法的使用可以使项目出现差异时拥有更强大的泛化性能和鲁棒性。

技术关键词

报告样本重复缺陷语义数据特征提取表达式阈值机制锚点模块逻辑回归分类器文本密度聚类算法交叉熵法动态主题核心字段编码

一种BERTopic-SBERT混合驱动的重复缺陷报告检测方法

站点导航

APP 下载