一种基于BERT模型的文档血缘关系分析方法

AITNT
正文
推荐专利
一种基于BERT模型的文档血缘关系分析方法
申请号:CN202510635445
申请日期:2025-05-16
公开号:CN120523943A
公开日期:2025-08-22
类型:发明专利
摘要
本发明公开了一种基于BERT模型的文档血缘关系分析方法,根据文档集合,通过BERT模型,得到嵌入向量集合,进行降维处理;根据目标文档的嵌入向量以及嵌入向量集合,通过层次密度聚类算法,得到包含多个候选文档的目标主题簇;根据目标文档与候选文档,通过统计距离方法,得到与目标文档具有同血缘关系的文档;当同血缘关系的文档数量少于预设阈值时,通过主题簇间概率分布的相似性,得到相邻主题簇,再次通过统计距离方法,得到与目标文档具有同血缘关系的文档。本发明通过BERT模型的语义建模能力、层次密度聚类算法以及多阶段筛选机制,解决了现有技术中语义丢失、参数刚性和聚类不灵活的问题,提高了文档血缘关系挖掘的准确率、召回率和计算效率。
技术关键词
血缘关系分析方法 BERT模型 密度聚类算法 主题 信息熵 存储计算机程序 多阶段 语义 邻域 存储器 机制 处理器 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号