基于大数据的中文网页个性化精准分类系统

正文

推荐专利

基于大数据的中文网页个性化精准分类系统

申请号：CN202410710621

申请日期：2024-06-04

公开号：CN118839047B

公开日期：2025-05-13

类型：发明专利

摘要

本申请的基于大数据的中文网页个性化精准分类系统，设计了对HTML无用标签的过滤算法，得到较高价值的网页文本内容。在最大顺序匹配分词算法上，采用三字长交集型歧义字段处理，提高了分词过程中的歧义识别能力。改进了基于TF*IDF的权重计算方法，结合CHI计算量计算权重，综合考虑了特征项在某类文本和所有文本中出现次数、类别信息对权重的影响和特征出现位置对权重的影响。实现了中文自动分类模型，设计了中文网页自动分类各个模块的构建方法，有效组织和处理网络上的海量信息，让人们更好的搜索到自己想要的资源，本申请网页自动分类是实现快速信息检索的重要技术，分类准确率达到96.3％,满足个性化网页分类需求。

技术关键词

分类系统文本海量数据抽取网页自动分类标签大数据中文分词海量网页权重计算方法数据收集模块前置处理过程分词算法特征提取模块多线程个性化网页信息提取方法特征值

基于大数据的中文网页个性化精准分类系统

站点导航

APP 下载