新词挖掘方法、新词挖掘装置和电子设备

正文

推荐专利

新词挖掘方法、新词挖掘装置和电子设备

申请号：CN202411844956

申请日期：2024-12-13

公开号：CN119808779A

公开日期：2025-04-11

类型：发明专利

摘要

本公开的实施例公开了新词挖掘方法、新词挖掘装置和电子设备。该方法的一具体实施方式包括：对获取的原始文本进行标准化处理，得到标准文本；采用基于统计语言模型的算法，对标准文本中的语句进行词切分，得到标准文本的词集合；根据词集合中各词的总数量，将总数量不小于第一阈值的词确定为候选词，得到候选词集合；根据预设指标参数对候选词集合中的候选词进行筛选，以及将筛选得到的候选词确定为挖掘出的新词，其中，预设指标参数用于表征字符的组合能够作为词的概率。该实施方式与文本处理技术有关，不需要准备大量的标注数据和模型训练，也不依赖经验规则，可以实现非监督的潜在新词的自动挖掘。保证数据挖掘效果的同时，可以降低资源需求。

技术关键词

新词挖掘方法字符统计语言模型服务器节点挖掘装置语句信息熵指标文本处理技术处理器参数集群电子设备拆分规则计算机程序产品非监督字典算法

系统为您推荐了相关专利信息

操作语句检测方法、装置、设备、介质及产品

语句检测方法文本摘要计算机程序指令解析算法

一种列车定位系统和方法

虚拟应答器列车定位方法标识牌激光雷达设备列车定位系统

出险理赔方法、装置、计算机设备及存储介质

医疗诊断信息理赔方法计算机可读指令文本语义

一种基于大模型的对话回复方法、装置、设备及存储介质

回复方法关系型数据库标签自然语言索引

基于深度学习的智能停车场车牌识别系统

动态权重分配风格迁移技术数据可见光图像卷积神经网络提取

新词挖掘方法、新词挖掘装置和电子设备

站点导航

APP 下载