一种基于结构感知的网页去重方法

AITNT
正文
推荐专利
一种基于结构感知的网页去重方法
申请号:CN202411687242
申请日期:2024-11-25
公开号:CN119203976B
公开日期:2025-02-11
类型:发明专利
摘要
本发明公开了一种基于结构感知的网页去重方法,属于安全、基础设施和IT支撑技术领域,包括:步骤1,网页采集;步骤2,对采集网页的URL进行解析,生成URL参数特征标签;步骤3,构建URL特征信息及差异分析结果映射表,对采集网页进行初始化对比和过滤,更新URL特征信息及差异分析结果映射表;步骤4,若采集网页未被过滤,根据URL特征信息及差异分析结果映射表对采集网页提取加权区域,计算采集网页的SimHash值;步骤5,根据采集网页的SimHash值和网页URL,判断采集网页是否存在相似网页,若存在相似网页,进行去重处理。该方法提高了去重效率和准确性,适用于对大规模网页数据进行高效、精准地去重处理。
技术关键词
网页去重方法 URL特征 SimHash算法 节点 文本 参数 标签 汉明距离 标记 广度优先遍历 词语 索引表 列表 加权特征 标识 元素 分词 定位器 对象
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号