基于大数据的中文网页个性化精准分类系统

AITNT
正文
推荐专利
基于大数据的中文网页个性化精准分类系统
申请号:CN202410710621
申请日期:2024-06-04
公开号:CN118839047B
公开日期:2025-05-13
类型:发明专利
摘要
本申请的基于大数据的中文网页个性化精准分类系统,设计了对HTML无用标签的过滤算法,得到较高价值的网页文本内容。在最大顺序匹配分词算法上,采用三字长交集型歧义字段处理,提高了分词过程中的歧义识别能力。改进了基于TF*IDF的权重计算方法,结合CHI计算量计算权重,综合考虑了特征项在某类文本和所有文本中出现次数、类别信息对权重的影响和特征出现位置对权重的影响。实现了中文自动分类模型,设计了中文网页自动分类各个模块的构建方法,有效组织和处理网络上的海量信息,让人们更好的搜索到自己想要的资源,本申请网页自动分类是实现快速信息检索的重要技术,分类准确率达到96.3%,满足个性化网页分类需求。
技术关键词
分类系统 文本 海量数据抽取 网页自动分类 标签 大数据 中文分词 海量网页 权重计算方法 数据收集模块 前置处理过程 分词算法 特征提取模块 多线程 个性化网页 信息提取方法 特征值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号