摘要
本发明公开了一种中文文本难度分类方法、系统及存储介质,方法包括:对获取的待处理中文文本进行文本分词处理;获取中文词汇集合中每个中文词汇的Embedd ing表示,计算语言学指标;将Embedd ing向量和语言学指标进行组合,构建得到特征矩阵;利用卷积神经网络对特征矩阵进行处理,提取局部特征;利用预训练的Transformer模型对特征矩阵进行处理,提取全局特征;将局部特征和全局特征进行融合,形成文本的最终特征表示,输入分类器进行文本难度的分类,得到中文文本难度分类结果。本发明实施例能够适用于各种需要评价文本易读性的场景之中、分类效率高且分类准确度高,可广泛应用于计算机技术领域。
技术关键词
中文文本
分类方法
指标
分词
矩阵
复杂度特征
前馈神经网络
注意力机制
分类器
序列
分类系统
模块
输出特征
模式
处理器
通道
可读存储介质
程序