摘要
本发明提供一种基于大语言模型辅助的短文本聚类方法、装置、设备与存储介质。该方法首先利用Sentence‑BERT将短文本转化为向量表示,并通过HDBSCAN模型进行预聚类;随后基于信息熵采样类间模糊样本,并使用大语言模型对这些样本进行簇归属判别,获取伪标签;接着通过近义词替换、随机删除、词序调整等方式进行数据增强,为每个样本生成正例;最后将伪标签作为额外正例,与数据增强生成的正例共同参与实例级对比学习,并联合类别级自监督表示学习实现聚类。该方法无需对数据进行预处理,能有效处理类别边界模糊样本,提高短文本聚类效果。本发明还提供了相应的装置、电子设备及存储介质。
技术关键词
大语言模型
样本
信息熵
判别模块
标签
采样模块
数据
计算机
采样方法
电子设备
处理器通信
指令
语义
可读存储介质
存储器
聚类
文本
标记