摘要
本申请公开了一种两阶段的新词发现方法、装置、设备及存储介质,属于自然语言处理领域,包括:从语料文本提取包含多个待验证的目标字符段的字符段集,并确定字符段集中,每个目标字符段的邻接熵;根据字符段集中,每个目标字符段的邻接熵,确定语料文本的词语集;将词语集中的词语分别输入新词发现模型,以根据新词发现模型所确定的每个词语的概率特征,从词语集中确定第一目标词语。基于本申请实施例的方法,克服了现有技术中基于规则和统计方法所面临的问题,解决了依赖高质量专家知识和预筛选大量数据的问题,实现了提高新词发现效率和准确性,解决了现有新词发现过程存在的泛用性差和维护成本高的问题。
技术关键词
字符
词语
新词发现方法
文本
两阶段
电子设备
可读存储介质
处理器
统计方法
自然语言
关系
指令
计算机
算法
模块
数据
命令
格式
存储器