摘要
本发明公开了一种风电知识图谱实体统一方法及系统,该方法包括以下步骤:S1、收集文本数据,对文本数据进行预处理及初步标注;S2、构建基于BERT的相似度模型;S3、制作相似性聚类与实体替换词,形成实体替换词典;S4、相似性聚类与构建实体向量库;S5、实体统一与阈值判定模块;本发明针对实体统一的准确性问题,考虑到规则方法在语义理解上的不足和知识库在量级上的不足,在搭建实体统一程序的流程中,不但融合了传统的相似度算法和向量库构建方法,并且结合了预训练模型,因此能够发挥传统相似度算法和知识库固定范式可迁移利用以及快速计算的优点,也能够借助基于大规模语料训练的模型在语义理解上的优势,达到最优的统一效果。
技术关键词
实体
Word2Vec模型
空间索引结构
词典
风电
文本
样本
图谱
词语
条目
BERT模型
优化器
网络架构
动态更新
库构建方法
大规模语料
网络结构
数据收集模块