摘要
本发明公开了一种基于BERT模型的文档血缘关系分析方法,根据文档集合,通过BERT模型,得到嵌入向量集合,进行降维处理;根据目标文档的嵌入向量以及嵌入向量集合,通过层次密度聚类算法,得到包含多个候选文档的目标主题簇;根据目标文档与候选文档,通过统计距离方法,得到与目标文档具有同血缘关系的文档;当同血缘关系的文档数量少于预设阈值时,通过主题簇间概率分布的相似性,得到相邻主题簇,再次通过统计距离方法,得到与目标文档具有同血缘关系的文档。本发明通过BERT模型的语义建模能力、层次密度聚类算法以及多阶段筛选机制,解决了现有技术中语义丢失、参数刚性和聚类不灵活的问题,提高了文档血缘关系挖掘的准确率、召回率和计算效率。
技术关键词
血缘关系分析方法
BERT模型
密度聚类算法
主题
信息熵
存储计算机程序
多阶段
语义
邻域
存储器
机制
处理器
参数