摘要
本发明公开了一种文本聚类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:分别计算文本集中各个文本之间的编辑距离,得到多个第一文本组及其对应的第一组名;将各个第一文本组对应的第一组名进行分词,得到分词集;分别计算分词集中各个分词的编辑距离,进而根据编辑距离对各个分词进行聚类,得到多个分词组;对于每个分词组,查找出分词组对应的各个第一组名,从分词组对应的各个第一组名中提取出第二组名,并将分词组对应的各个第一组名对应的第一文本组聚合为第二文本组。该实施方式实现了低成本、准确的文本聚类,对表征第一文本组语义的第一组名进行进一步的细粒度分词和聚类,在提升聚类准确性的前提下,减少计算量。
技术关键词
文本
分词
编辑
语义
聚类
深度学习模型
移动电子设备
处理器
存储装置
程序
模块
模板
标识
低成本
计算机
终端
介质
关系
系统为您推荐了相关专利信息
知识点
大语言模型
指令
数据驱动方法
文本挖掘技术