摘要
本发明提出一种基于自适应子空间选择算法的含违法行为网站刻画方法和系统,属于互联网网络测量技术领域。所述方法包括:步骤S1、利用爬虫爬取网站数据;步骤S2、对爬取的网站数据进行数据预处理;步骤S3、使用BERT模型进行文本分类,以识别出含违法行为网站;步骤S4、对识别出的含违法行为网站进行基于数据降维的BERT文本多标签分类;步骤S5、对每一类含违法行为网站进行网站主体刻画。本发明为解决含违法行为网站主体刻画不明确、难以刻画等问题提供解决方案,并针对网络公害主体取证难、追踪溯源难等问题做出改进。
技术关键词
BERT模型
刻画方法
子空间特征提取
爬虫爬取
词向量训练
数据特征提取
算法
标签文本
多标签
中文分词
连续性
可读存储介质
处理单元
参数
电子设备
处理器
日期