基于国网文档数据特征的层次聚类与目录自动构建方法

正文

推荐专利

申请号：CN202411806695

申请日期：2024-12-10

公开号：CN119760048B

公开日期：2025-12-26

类型：发明专利

摘要

本发明涉及一种基于国网文档数据特征的层次聚类与目录自动构建方法，包括以下步骤：步骤S1：获取国网文档数据，并预处理；步骤S2：用TF‑IDF算法对文档名与文档标题进行具有类别信息的关键词表识别；步骤S3:根据关键词表识别结果，采用word2vec工具选择Skip‑gram模型进行词嵌入模型的训练并生成关键词向量；步骤S4：结合文档向量化表示结果，采用凝聚型层次聚类算法进行国网文档层级聚类；步骤S5:依据国网文档层级聚类结果，根据同一类别文档集共现的步骤S2中的关键词，设置相应类别标签，完成国网文档层级目录构建。本发明有效挖掘国网领域的文档数据特征，实现了国网文档目录层次结构的自动生成，提升国网用户日常办公效率。

技术关键词

自动构建方法目录生成关键词词嵌入模型层级关键词提取方法聚类数据标签命名实体识别分词系统算法词语频率文本节点

系统为您推荐了相关专利信息

一种面向OpenFOAM模拟结果的全域点火延迟时间高效同步算法

同步算法网格拓扑结构点火成功率混合物文件夹

一种基于多粒度信息和层级化的知识检索增强方法和系统

节点检索策略多轮对话场景两阶段生成答案

信息提供装置、信息提供方法以及计算机可读取的记录介质

策略层级组织通知企业资源计划

一种基于数字孪生城市的3D建模方法

数字孪生建模方法视觉注意力机制语义标签多约束条件

基于FMI的一维三维联合仿真方法、电子设备、存储介质及装置

三维耦合器联合仿真方法变量三维仿真模型电子设备

基于国网文档数据特征的层次聚类与目录自动构建方法

站点导航

APP 下载