一种两阶段的新词发现方法

正文

推荐专利

一种两阶段的新词发现方法

申请号：CN202411695723

申请日期：2024-11-25

公开号：CN119990116A

公开日期：2025-05-13

类型：发明专利

摘要

本申请公开了一种两阶段的新词发现方法、装置、设备及存储介质，属于自然语言处理领域，包括：从语料文本提取包含多个待验证的目标字符段的字符段集，并确定字符段集中，每个目标字符段的邻接熵；根据字符段集中，每个目标字符段的邻接熵，确定语料文本的词语集；将词语集中的词语分别输入新词发现模型，以根据新词发现模型所确定的每个词语的概率特征，从词语集中确定第一目标词语。基于本申请实施例的方法，克服了现有技术中基于规则和统计方法所面临的问题，解决了依赖高质量专家知识和预筛选大量数据的问题，实现了提高新词发现效率和准确性，解决了现有新词发现过程存在的泛用性差和维护成本高的问题。

技术关键词

字符词语新词发现方法文本两阶段电子设备可读存储介质处理器统计方法自然语言关系指令计算机算法模块数据命令格式存储器

一种两阶段的新词发现方法

站点导航

APP 下载