一种基于大语言模型辅助的短文本聚类方法、装置、设备与存储介质

AITNT
正文
推荐专利
一种基于大语言模型辅助的短文本聚类方法、装置、设备与存储介质
申请号:CN202510260961
申请日期:2025-03-06
公开号:CN120179826A
公开日期:2025-06-20
类型:发明专利
摘要
本发明提供一种基于大语言模型辅助的短文本聚类方法、装置、设备与存储介质。该方法首先利用Sentence‑BERT将短文本转化为向量表示,并通过HDBSCAN模型进行预聚类;随后基于信息熵采样类间模糊样本,并使用大语言模型对这些样本进行簇归属判别,获取伪标签;接着通过近义词替换、随机删除、词序调整等方式进行数据增强,为每个样本生成正例;最后将伪标签作为额外正例,与数据增强生成的正例共同参与实例级对比学习,并联合类别级自监督表示学习实现聚类。该方法无需对数据进行预处理,能有效处理类别边界模糊样本,提高短文本聚类效果。本发明还提供了相应的装置、电子设备及存储介质。
技术关键词
大语言模型 样本 信息熵 判别模块 标签 采样模块 数据 计算机 采样方法 电子设备 处理器通信 指令 语义 可读存储介质 存储器 聚类 文本 标记
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号