摘要
本发明涉及一种基于国网文档数据特征的层次聚类与目录自动构建方法,包括以下步骤:步骤S1:获取国网文档数据,并预处理;步骤S2:用TF‑IDF算法对文档名与文档标题进行具有类别信息的关键词表识别;步骤S3:根据关键词表识别结果,采用word2vec工具选择Skip‑gram模型进行词嵌入模型的训练并生成关键词向量;步骤S4:结合文档向量化表示结果,采用凝聚型层次聚类算法进行国网文档层级聚类;步骤S5:依据国网文档层级聚类结果,根据同一类别文档集共现的步骤S2中的关键词,设置相应类别标签,完成国网文档层级目录构建。本发明有效挖掘国网领域的文档数据特征,实现了国网文档目录层次结构的自动生成,提升国网用户日常办公效率。
技术关键词
自动构建方法
目录
生成关键词
词嵌入模型
层级
关键词提取方法
聚类
数据
标签
命名实体识别
分词系统
算法
词语
频率
文本
节点
系统为您推荐了相关专利信息
同步算法
网格拓扑结构
点火成功率
混合物
文件夹
数字孪生
建模方法
视觉注意力机制
语义标签
多约束条件
三维耦合器
联合仿真方法
变量
三维仿真模型
电子设备