一种基于信息熵的关键词提取聚类簇标签化体系构建方法

AITNT
正文
推荐专利
一种基于信息熵的关键词提取聚类簇标签化体系构建方法
申请号:CN202411810093
申请日期:2024-12-10
公开号:CN119962523A
公开日期:2025-05-09
类型:发明专利
摘要
本发明提出一种基于信息熵的关键词提取聚类簇标签化体系构建方法,首先对应汇聚到系统中的短文本进行数据清洗,主要包括清洗标点符号和中文助词;接着对所有句子进行中文分析并且使用TF‑IDF算法提取关键词信息;再使用预训练bert算法给每个关键性生成唯一的特征关键词向量。第二步,构建以关键词为图节点,不同关键词特征项目之间的欧式距离阈值超过阈值,则可构建边关系的图结构。最后,使用信息熵infomap算法在关键词图上随机游走构建最小hufuman最短编码序列,以层次编码获取簇的类别,再通过人工核查方式删除簇中的关键词及簇删除及合并命名簇的标签名称,最终构建关键词的标签体系。使用所提出的方法构建的关键词标签化体系,可以快速有效的对短文本进行标签化意向分类效果优与其他的文本分类模型,二义性小,准确度高,实用性强。
技术关键词
体系构建方法 标签体系 信息熵 图上随机游走 节点 文本分类模型 关键词特征 编码 聚类算法 关键性 样本 数据 分词 语句 关系 符号
系统为您推荐了相关专利信息
1
一种智能箱式变电站的实时监管系统
智能箱式变电站 监管系统 梅尔频率倒谱系数 故障诊断模块 节点特征
2
一种物联网节点设备无线组网协议的终端接入认证方法
终端接入认证方法 物联网节点设备 信道 组网协议 密钥交换协议
3
一种桥梁结构的实时监测和预警方法及平台
桥梁结构应力 数据 风荷载 天气 三维模型
4
云计算场景下演化多任务优化的安全性测试方法和系统
云服务器 节点设备 多任务 安全性测试系统 安全性测试方法
5
一种用于消杀机器人的属性值交互LPA*动态规划方法
动态规划方法 消杀机器人 路径规划方法 交互式方法 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号