一种面向低置信度数据探索更高语义质量的短文本聚类方法

AITNT
正文
推荐专利
一种面向低置信度数据探索更高语义质量的短文本聚类方法
申请号:CN202510626605
申请日期:2025-05-15
公开号:CN120541232A
公开日期:2025-08-26
类型:发明专利
摘要
本发明提出一种面向低置信度数据探索更高语义质量的短文本聚类语义词向量生成方法,属于深度聚类技术领域。所述方法包括如下步骤:预训练Sentence‑BERT,得到预训练的Sentence‑BERT用作数据集的特征提取器;使用特征提取器提取数据集短文本、弱增强文本及强增强文本的特征向量;计算伪标签并检测离群点,将数据集划分为离群点数据及非离群点数据;计算聚类头损失,计算对比头损失,计算总训练损失;不断地更新预训练Sentence‑BERT和聚类头和对比头的参数,得到训练好的Sentence‑BERT、聚类头;使用训练好的聚类头计算聚类结果。本发明综合考虑了文本数据集的数据关系和簇类级的区别性,并尽可能的从文本中挖掘语义质量,使得生成的文本特征表示具有更好的分离性,并获得了很好的聚类效果。
技术关键词
离群点 词向量生成方法 文本 特征提取器 数据 语义 标签 随机梯度下降 聚类技术 同义词 节点数 参数 索引 算法 表达式 样本 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号