摘要
本发明公开了一种基于结构化多粒度特征融合的中文文本分类方法及系统,涉及自然语言处理技术领域,首先,使用预训练的BERT编码器根据中文文本生成字符和词语特征向量,并通过最大池化操作获得句子粒度的特征向量表示;其次,通过构建字符、词语和句子粒度特征向量的初始全连通图捕获结构化上下文语义特征,并引入图卷积网络,捕获全连通图节点之间的全局和局部相关性,获得结构化多层次语义特征;然后,设计结构化的多粒度交互策略,对不同粒度特征进行加权处理,实现结构化多粒度特征的融合;最后,采用多层全连接神经网络对融合后的特征进行分类。本发明能够提升模型对中文文本复杂语义的理解能力,提高中文文本分类精度和效率。
技术关键词
中文文本分类方法
多粒度特征
多层次语义特征
词语
融合特征
交互机制
字符
中文文本分类系统
Softmax函数
序列
网络
编码器
自然语言
策略
标签
线性