摘要
本公开的实施例公开了新词挖掘方法、新词挖掘装置和电子设备。该方法的一具体实施方式包括:对获取的原始文本进行标准化处理,得到标准文本;采用基于统计语言模型的算法,对标准文本中的语句进行词切分,得到标准文本的词集合;根据词集合中各词的总数量,将总数量不小于第一阈值的词确定为候选词,得到候选词集合;根据预设指标参数对候选词集合中的候选词进行筛选,以及将筛选得到的候选词确定为挖掘出的新词,其中,预设指标参数用于表征字符的组合能够作为词的概率。该实施方式与文本处理技术有关,不需要准备大量的标注数据和模型训练,也不依赖经验规则,可以实现非监督的潜在新词的自动挖掘。保证数据挖掘效果的同时,可以降低资源需求。
技术关键词
新词挖掘方法
字符
统计语言模型
服务器节点
挖掘装置
语句
信息熵
指标
文本处理技术
处理器
参数
集群
电子设备
拆分规则
计算机程序产品
非监督
字典
算法
系统为您推荐了相关专利信息
语句检测方法
文本
摘要
计算机程序指令
解析算法
虚拟应答器
列车定位方法
标识牌
激光雷达设备
列车定位系统
医疗诊断信息
理赔方法
计算机可读指令
文本
语义
动态权重分配
风格迁移技术
数据
可见光图像
卷积神经网络提取