摘要
本发明公开了计算机自然语言处理领域的一种融合主题特征的短文本分类方法。该方法首先从短文本中提取主题特征,通过将LDA模型获取的主题特征与Word2vec生成的词向量进行加权求和来捕捉短文本的核心主题。其次,再将短文本数据集建模为由词图、词性标签图、实体图三个特征图组成的词级组件图,以获得短文本的文本特征。最后,将主题特征与文本特征进行融合,然后动态学习一个短文本图,以编码短文档之间的相似性,从而使更有效的标签传播之间的连接相似的短文档。该方法同时考虑了短文本身的文本特征信息和主题特征信息,丰富了短文本的语义,这极大地促进了分类任务。
技术关键词
主题特征
分类方法
文本
Word2Vec模型
计算机自然语言
LDA主题模型
实体
带标签
嵌入方法
节点特征
变量
分词
定义
数据
索引
编码
代表
系统为您推荐了相关专利信息
命名实体识别模型
状态机模式
客户
非易失性计算机可读存储介质
资料
文字提取方法
文本检测模型
文本识别
字符
检测头
协作会话
情感识别模型
情感识别方法
在线协作
多模态