摘要
本发明公开了一种基于结构感知的网页去重方法,属于安全、基础设施和IT支撑技术领域,包括:步骤1,网页采集;步骤2,对采集网页的URL进行解析,生成URL参数特征标签;步骤3,构建URL特征信息及差异分析结果映射表,对采集网页进行初始化对比和过滤,更新URL特征信息及差异分析结果映射表;步骤4,若采集网页未被过滤,根据URL特征信息及差异分析结果映射表对采集网页提取加权区域,计算采集网页的SimHash值;步骤5,根据采集网页的SimHash值和网页URL,判断采集网页是否存在相似网页,若存在相似网页,进行去重处理。该方法提高了去重效率和准确性,适用于对大规模网页数据进行高效、精准地去重处理。
技术关键词
网页去重方法
URL特征
SimHash算法
节点
文本
参数
标签
汉明距离
标记
广度优先遍历
词语
索引表
列表
加权特征
标识
元素
分词
定位器
对象