摘要
本申请的基于大数据的中文网页个性化精准分类系统,设计了对HTML无用标签的过滤算法,得到较高价值的网页文本内容。在最大顺序匹配分词算法上,采用三字长交集型歧义字段处理,提高了分词过程中的歧义识别能力。改进了基于TF*IDF的权重计算方法,结合CHI计算量计算权重,综合考虑了特征项在某类文本和所有文本中出现次数、类别信息对权重的影响和特征出现位置对权重的影响。实现了中文自动分类模型,设计了中文网页自动分类各个模块的构建方法,有效组织和处理网络上的海量信息,让人们更好的搜索到自己想要的资源,本申请网页自动分类是实现快速信息检索的重要技术,分类准确率达到96.3%,满足个性化网页分类需求。
技术关键词
分类系统
文本
海量数据抽取
网页自动分类
标签
大数据
中文分词
海量网页
权重计算方法
数据收集模块
前置处理过程
分词算法
特征提取模块
多线程
个性化网页
信息提取方法
特征值