摘要
本发明公开了一种结合语义信息的专用领域关键词提取方法,属于语料识别处理领域。包括:专家构建领域词典;通过新词发现算法从领域文献中自动发现新词,人工确认后入领域词典,以不断更新领域词典;将领域词典加载到分词器;通过TextRank算法在目标语料中计算出关键词,并得到关键词的权重值;将目标语料的原句子中的关键词部分替换为MASK,构成MASK句子;通过BERT算法提取MASK句子与原句子的向量,通过所提取的向量计算MASK句子与原句子相似度值;将步骤(4)中通过TexkRank计算的权重和步骤(6)中提取的句子相似度值通过加权计算得到最终的权重值。本发明能够精确提取出专用领域场景的关键词,为文档关联分析、检索和态势展现等上层应用提供数据支撑。
技术关键词
关键词提取方法
信息熵
词语
词典
发现新词
语义
节点
算法
滑动窗口
关键性
文本
分词
场景