摘要
本发明提出了一种基于模糊匹配的自然语言处理分词方法及系统,包括以下步骤:先对文本按单个字符进行拆分,生成单字符列表,同时加载词表文件;对单字符列表中每一个字符位置,该字符位置的字符每次增加一个字符,递增式与后续字符拼接,生成候选字段;将候选字段与词表目标词语进行模糊匹配,计算匹配得分,返回得分最高的候选字段作为单字符位置的模糊匹配结果;对所述模糊匹配结果进行邻近比较,如果得分大于预设阈值,输出分词结果,否则输出匹配得分最高的字段作为分词结果;与目前现有的基于词表分词算法相比,本发明的基于模糊匹配的分词算法,降低了对词表的质量要求,提高了对新词的识别能力和效率。
技术关键词
分词方法
字符
自然语言
字段
分词系统
分词算法
词语
处理器执行指令
列表
文本
新词
位置映射
拼接模块
匹配模块
输出模块
存储器
电子设备
系统为您推荐了相关专利信息
管理方法
数据输出模块
数据管理模块
管理系统
数据分析工具
BERT模型
关键词提取方法
关键词提取模型
交叉注意力机制
序列
网页篡改监测方法
文本
资源
深度学习模型
HTTP请求