摘要
本申请公开了一种文档的分类方法、装置及计算机程序产品,涉及文本分析技术领域,该方法包括:对文档数据集进行特征词提取,得到第一特征词集合,其中,文档数据集包括已被标记类别的文档,每个文档中包括多个特征词;计算第一特征词集合中每个特征词的特征区分度,根据特征区分度确定出第二特征词集合,其中,特征区分度表示特征词与文档类别的相关度,第二特征词集合中的特征词的特征区分度大于预设值;通过分类器模型对待分类文档进行分类,得到分类结果,其中,分类器模型是以第二特征词集合中的特征词为输入以第二特征词集合中的特征词对应的文档类别为输出对初始模型进行训练得到的。采用上述技术方案,解决了如何提高文档分类效率的问题。
技术关键词
分类器模型
特征词提取
计算机程序产品
分类方法
文本分析技术
文档分类
数据
分类装置
处理器
矩阵
标记
电子装置
存储器
模块
系统为您推荐了相关专利信息
高性能低复杂度
解调算法
空间调制系统
分支
调制星座
传感器
决策
系统芯片
辅助驾驶方法
计算机执行指令
入侵检测方法
主动防御方法
网络
贝叶斯决策理论
入侵检测装置