摘要
本发明提出一种基于信息熵的关键词提取聚类簇标签化体系构建方法,首先对应汇聚到系统中的短文本进行数据清洗,主要包括清洗标点符号和中文助词;接着对所有句子进行中文分析并且使用TF‑IDF算法提取关键词信息;再使用预训练bert算法给每个关键性生成唯一的特征关键词向量。第二步,构建以关键词为图节点,不同关键词特征项目之间的欧式距离阈值超过阈值,则可构建边关系的图结构。最后,使用信息熵infomap算法在关键词图上随机游走构建最小hufuman最短编码序列,以层次编码获取簇的类别,再通过人工核查方式删除簇中的关键词及簇删除及合并命名簇的标签名称,最终构建关键词的标签体系。使用所提出的方法构建的关键词标签化体系,可以快速有效的对短文本进行标签化意向分类效果优与其他的文本分类模型,二义性小,准确度高,实用性强。
技术关键词
体系构建方法
标签体系
信息熵
图上随机游走
节点
文本分类模型
关键词特征
编码
聚类算法
关键性
样本
数据
分词
语句
关系
符号
系统为您推荐了相关专利信息
智能箱式变电站
监管系统
梅尔频率倒谱系数
故障诊断模块
节点特征
终端接入认证方法
物联网节点设备
信道
组网协议
密钥交换协议
云服务器
节点设备
多任务
安全性测试系统
安全性测试方法
动态规划方法
消杀机器人
路径规划方法
交互式方法
节点