摘要
本发明公开政务服务领域的快速无监督词库构建方法、系统、设备和介质,方法包括:对政务服务领域语料进行清洗,得到语料库;统计语料库中的词片段;计算所有词片段的互信息熵,将互信息熵高于阈值的词片段添加到初始词库中;基于初始词库对语料库中的政务服务领域语料进行分词,切分后的词语保存在字典中;遍历字典,删去不合规的词语,保留有语义价值的词语组成无监督词库。本发明以提高无监督词库构建的准确性和效率,具有广泛的应用前景。
技术关键词
词库构建方法
无监督
政务
词语
信息熵计算方法
字典
分词
语义
构建系统
文本
处理器
模块
可读存储介质
频率
存储器
计算机
电子设备
系统为您推荐了相关专利信息
远程故障诊断方法
无监督学习算法
消息队列系统
数据采集单元
监控模块
现场视频图像
图像局部特征
数据存储管理
视频帧
分析模块
变化检测方法
遥感图像变化检测
残差模块
输出特征
水平高频分量