摘要
一种基于注意力机制和对比学习相结合的短文本聚类方法及系统,它属于自然语言处理与机器学习交叉技术领域。本发明解决了现有对比学习方法存在假负例分离,导致后期聚类准确率低的问题。本发明提出的基于样本层面的注意力机制用于挖掘样本之间的语义相似度。根据语义相似度,采用加权重识别的方式优化了对比学习中正例样本的构建,解决了对比学习具备的假负例分离问题,从而利用改进后的对比学习更好的训练模型,生成更高质量的特征向量。之后,本发明采用概率分布对比学习和伪标签辅助训练相结合的方式训练聚类网络,实现更准确的聚类。本发明方法可以应用于短文本聚类。
技术关键词
数据样本集合
文本
特征提取器
注意力机制
网络
标签
聚类
模块
矩阵
机器学习交叉技术
参数
学习方法
元素
自然语言
语义
编码
代表
系统为您推荐了相关专利信息
意图识别方法
意图识别模型
语音
计算机可读指令
数据
协同路径规划
路径规划方法
多头注意力机制
节点特征
异构
方位反演方法
特征提取模块
反演模型
卷积神经网络训练
数值模拟方法
学生
AI算法
数据处理方法
问答模型
可执行程序代码