摘要
本发明公开了一种试验设备测试系统故障词典构建方法及装置,其中方法包括:采集试验设备测试系统的故障相关资料,通过预处理得到细粒度的分词片段;基于动态滑动窗口机制,将所述分词片段进行组合拼接,并将所有组合得到的词作为候选词汇集;将候选词汇集进行词频筛选,基于多源故障文本计算筛选后候选词汇的信息熵和互信息,并基于信息熵和互信息对候选词汇进行排序,得到专业词汇集;基于专业词汇集,通过领域定制化预训练的词向量模型进行词向量表示,将词汇编码为定长的连续稠密向量集,并计算词汇相似度,进而建立试验设备测试系统的故障词典。本发明可在试验设备测试系统故障领域的命名实体识别中提供更丰富的词汇信息以提升识别效果。
技术关键词
词典构建方法
试验设备
信息熵
动态滑动窗口
专业
生成候选词
分词
训练神经网络
三元复合结构
内部结构特征
文本
命名实体识别
度量
编码
边界特征
机制
资料
模块