摘要
本发明涉及人工智能的自然语言处理领域,具体是一种基于深度模型的域名分类方法及系统,包括,基于分布式的爬虫功能,对特定域名下的二级页面进行周期性抓取,并存储进Elasticsearch中;利用深度模型对二级页面的文本内容和图片内容进行识别,对深度模型进行算子优化处理;对每个域名下的二级页面进行文本检测,对域名的文本检测结果进行聚合,存储聚合分类结果;基于异步检测队列功能,同时实现对不同域名进行数据拉取、模型调用、合并结果检测以及存储结果检测功能。本发明在LocalDNS域名解析中,针对域名的分类对访问者予以限制,并且准确地标记出海量域名的所属类别,极大降低了人工标记的成本,提升标记速度。
技术关键词
域名分类方法
爬虫功能
文本
页面内容
队列功能
图片
模型加速方法
网页内容抓取
周期性
数据采集模块
分类系统
逻辑模块
存储模块
网页模型
抓取周期
模型剪枝
可读存储介质
人工标记