一种基于模糊匹配的自然语言处理分词方法及系统

正文

推荐专利

申请号：CN202510879716

申请日期：2025-06-27

公开号：CN120764527A

公开日期：2025-10-10

类型：发明专利

摘要

本发明提出了一种基于模糊匹配的自然语言处理分词方法及系统，包括以下步骤：先对文本按单个字符进行拆分，生成单字符列表，同时加载词表文件；对单字符列表中每一个字符位置，该字符位置的字符每次增加一个字符，递增式与后续字符拼接，生成候选字段；将候选字段与词表目标词语进行模糊匹配，计算匹配得分，返回得分最高的候选字段作为单字符位置的模糊匹配结果；对所述模糊匹配结果进行邻近比较，如果得分大于预设阈值，输出分词结果，否则输出匹配得分最高的字段作为分词结果；与目前现有的基于词表分词算法相比，本发明的基于模糊匹配的分词算法，降低了对词表的质量要求，提高了对新词的识别能力和效率。

技术关键词

分词方法字符自然语言字段分词系统分词算法词语处理器执行指令列表文本新词位置映射拼接模块匹配模块输出模块存储器电子设备

系统为您推荐了相关专利信息

一种文本的语义处理方法、装置、设备、介质及产品

文本滑动窗口语义摘要序列

能碳管理方法、系统及电子设备

管理方法数据输出模块数据管理模块管理系统数据分析工具

一种元数据异常预测方法、装置、介质及产品

序列实体 LSTM模型元素注意力机制

基于BERT模型和关键词提取的法律判决预测方法

BERT模型关键词提取方法关键词提取模型交叉注意力机制序列

一种网页篡改监测方法、装置、设备及介质

网页篡改监测方法文本资源深度学习模型 HTTP请求

一种基于模糊匹配的自然语言处理分词方法及系统

站点导航

APP 下载