摘要
本发明公开了基于对比学习和LLMs的短文本主题识别方法,涉及短文本主题识别领域,首先将原文本与LLMs提取的关键词的句子向量进行拼接以生成增强向量表示;随后采用聚类算法生成伪标签预训练MLP,基于MLP聚类结果筛选边缘文本与中心文本构建正负样本对,引入有监督对比学习,优化嵌入模型与MLP;最后对边缘样本调用LLMs进行异常判别,并结合TF‑IDF提取簇主题特征。在4个文本数据集的实验上,本模型在主题一致性TC和主题多样性TD平均高于次优模型9.62%和4.59%,表明本发明通过多阶段语义增强与对比学习机制,显著提升了短文本主题识别的准确性与鲁棒性。
技术关键词
主题识别方法
多层感知机
样本
文本
关键词
信息熵
指标
大语言模型
聚类算法
构建训练集
主题特征
加权方法
标签
多阶段
鲁棒性
标记
数据
语义
系统为您推荐了相关专利信息
决策辅助方法
决策辅助系统
神经网络模型
文本特征向量
全局平均池化
溯源方法
更新消息
网络拓扑
BGP消息
卷积神经网络模型
文本关键信息
强化学习算法
图谱
深度学习模型
自然语言