摘要
本申请涉及计算机技术领域,尤其涉及一种网页检测方法、装置及电子设备。该方法包括:从目标网页中提取表示网页内容的页面数据信息。采用关键词典遍历页面数据信息,确定页面数据信息是否包含关键词典中的关键词,并进行标记得到标记序列。计算目标网页中每个表单Form标签内的字符长度与网页内容字符长度的比值得到内容比例,计算包含交互动作关键词的子元素数量与对应的Form标签内总元素数量的比值得到元素命中比例。输入标准化处理后的特征数据输入至决策树模型中,确定目标网页是否为登录页面,特征数据包括标记序列、内容比例以及元素命中比例。上述方案,可以实现提升网页检测准确性,提高网页检测的处理效率。
技术关键词
页面数据
交互动作
决策树模型
Word2Vec模型
元素
网页检测方法
标签
词典
同义词
关键词
字符
动态加载内容
表单
训练特征
计算机程序产品
超文本标记语言
系统为您推荐了相关专利信息
历史负荷数据
历史气象数据
稀疏字典学习
电力系统负荷
辨识方法