一种基于大语言模型辅助的短文本聚类方法、装置、设备与存储介质

正文

推荐专利

申请号：CN202510260961

申请日期：2025-03-06

公开号：CN120179826A

公开日期：2025-06-20

类型：发明专利

摘要

本发明提供一种基于大语言模型辅助的短文本聚类方法、装置、设备与存储介质。该方法首先利用Sentence‑BERT将短文本转化为向量表示，并通过HDBSCAN模型进行预聚类；随后基于信息熵采样类间模糊样本，并使用大语言模型对这些样本进行簇归属判别，获取伪标签；接着通过近义词替换、随机删除、词序调整等方式进行数据增强，为每个样本生成正例；最后将伪标签作为额外正例，与数据增强生成的正例共同参与实例级对比学习，并联合类别级自监督表示学习实现聚类。该方法无需对数据进行预处理，能有效处理类别边界模糊样本，提高短文本聚类效果。本发明还提供了相应的装置、电子设备及存储介质。

技术关键词

大语言模型样本信息熵判别模块标签采样模块数据计算机采样方法电子设备处理器通信指令语义可读存储介质存储器聚类文本标记

一种基于大语言模型辅助的短文本聚类方法、装置、设备与存储介质

站点导航

APP 下载