摘要
本发明提供了一种面向自然语言短文本的主题聚类处理方法及装置,涉及自然语言处理技术领域,旨在解决现有主题聚类方法时效性和准确性低下,难以满足实际需求的技术问题。该方法包括:获取待处理的自然语言文本,并对自然语言文本进行分词处理;基于分词处理后的自然语言文本,剔除停用词,其中,停用词表征对自然语言文本无贡献语义的词;基于剔除停用词后的自然语言文本,从预先构建的知识图谱中引入关联词对自然语言文本进行语义增强;基于语义增强后的自然语言文本,抽取任意两个关键词进行无序组合,生成二元词组;将二元词组输入预先训练的主题聚类模型进行主题聚类,得到自然语言文本的主题分布。
技术关键词
自然语言文本
主题
面向自然语言
语义
分词
关键词
生成知识图谱
实体消歧
处理器
聚类方法
模块
存储装置
数据
可读存储介质
时效性
系统为您推荐了相关专利信息
预测模型生成方法
基因调控网络
基因表达特征
矩阵编码器
序列
参数生成方法
组合优化算法
变异策略
基础
覆盖率
信息获取方法
图片
标识
图像识别模型
可读存储介质
胶囊网络
轴承故障诊断方法
小波阈值去噪算法
语义向量
样本