新词挖掘方法、新词挖掘装置和电子设备

AITNT
正文
推荐专利
新词挖掘方法、新词挖掘装置和电子设备
申请号:CN202411844956
申请日期:2024-12-13
公开号:CN119808779A
公开日期:2025-04-11
类型:发明专利
摘要
本公开的实施例公开了新词挖掘方法、新词挖掘装置和电子设备。该方法的一具体实施方式包括:对获取的原始文本进行标准化处理,得到标准文本;采用基于统计语言模型的算法,对标准文本中的语句进行词切分,得到标准文本的词集合;根据词集合中各词的总数量,将总数量不小于第一阈值的词确定为候选词,得到候选词集合;根据预设指标参数对候选词集合中的候选词进行筛选,以及将筛选得到的候选词确定为挖掘出的新词,其中,预设指标参数用于表征字符的组合能够作为词的概率。该实施方式与文本处理技术有关,不需要准备大量的标注数据和模型训练,也不依赖经验规则,可以实现非监督的潜在新词的自动挖掘。保证数据挖掘效果的同时,可以降低资源需求。
技术关键词
新词挖掘方法 字符 统计语言模型 服务器节点 挖掘装置 语句 信息熵 指标 文本处理技术 处理器 参数 集群 电子设备 拆分规则 计算机程序产品 非监督 字典 算法
系统为您推荐了相关专利信息
1
操作语句检测方法、装置、设备、介质及产品
语句检测方法 文本 摘要 计算机程序指令 解析算法
2
一种列车定位系统和方法
虚拟应答器 列车定位方法 标识牌 激光雷达设备 列车定位系统
3
出险理赔方法、装置、计算机设备及存储介质
医疗诊断信息 理赔方法 计算机可读指令 文本 语义
4
一种基于大模型的对话回复方法、装置、设备及存储介质
回复方法 关系型数据库 标签 自然语言 索引
5
基于深度学习的智能停车场车牌识别系统
动态权重分配 风格迁移技术 数据 可见光图像 卷积神经网络提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号