一种基于BERT模型的文档血缘关系分析方法

正文

推荐专利

申请号：CN202510635445

申请日期：2025-05-16

公开号：CN120523943A

公开日期：2025-08-22

类型：发明专利

摘要

本发明公开了一种基于BERT模型的文档血缘关系分析方法，根据文档集合，通过BERT模型，得到嵌入向量集合，进行降维处理；根据目标文档的嵌入向量以及嵌入向量集合，通过层次密度聚类算法，得到包含多个候选文档的目标主题簇；根据目标文档与候选文档，通过统计距离方法，得到与目标文档具有同血缘关系的文档；当同血缘关系的文档数量少于预设阈值时，通过主题簇间概率分布的相似性，得到相邻主题簇，再次通过统计距离方法，得到与目标文档具有同血缘关系的文档。本发明通过BERT模型的语义建模能力、层次密度聚类算法以及多阶段筛选机制，解决了现有技术中语义丢失、参数刚性和聚类不灵活的问题，提高了文档血缘关系挖掘的准确率、召回率和计算效率。

技术关键词

血缘关系分析方法 BERT模型密度聚类算法主题信息熵存储计算机程序多阶段语义邻域存储器机制处理器参数

一种基于BERT模型的文档血缘关系分析方法

站点导航

APP 下载