一种基于信息熵的关键词提取聚类簇标签化体系构建方法

正文

推荐专利

申请号：CN202411810093

申请日期：2024-12-10

公开号：CN119962523A

公开日期：2025-05-09

类型：发明专利

摘要

本发明提出一种基于信息熵的关键词提取聚类簇标签化体系构建方法，首先对应汇聚到系统中的短文本进行数据清洗，主要包括清洗标点符号和中文助词；接着对所有句子进行中文分析并且使用TF‑IDF算法提取关键词信息；再使用预训练bert算法给每个关键性生成唯一的特征关键词向量。第二步，构建以关键词为图节点，不同关键词特征项目之间的欧式距离阈值超过阈值，则可构建边关系的图结构。最后，使用信息熵infomap算法在关键词图上随机游走构建最小hufuman最短编码序列，以层次编码获取簇的类别，再通过人工核查方式删除簇中的关键词及簇删除及合并命名簇的标签名称，最终构建关键词的标签体系。使用所提出的方法构建的关键词标签化体系，可以快速有效的对短文本进行标签化意向分类效果优与其他的文本分类模型，二义性小，准确度高，实用性强。

技术关键词

体系构建方法标签体系信息熵图上随机游走节点文本分类模型关键词特征编码聚类算法关键性样本数据分词语句关系符号

系统为您推荐了相关专利信息

一种智能箱式变电站的实时监管系统

智能箱式变电站监管系统梅尔频率倒谱系数故障诊断模块节点特征

一种物联网节点设备无线组网协议的终端接入认证方法

终端接入认证方法物联网节点设备信道组网协议密钥交换协议

一种桥梁结构的实时监测和预警方法及平台

桥梁结构应力数据风荷载天气三维模型

云计算场景下演化多任务优化的安全性测试方法和系统

云服务器节点设备多任务安全性测试系统安全性测试方法

一种用于消杀机器人的属性值交互LPA*动态规划方法

动态规划方法消杀机器人路径规划方法交互式方法节点

一种基于信息熵的关键词提取聚类簇标签化体系构建方法

站点导航

APP 下载