摘要
本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端/移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。
技术关键词
识别方法
机器学习模型
网站发现技术
识别互联网
模板
样本
专家知识库
决策树模型
页面代码
正则化参数
移动端
数据
图片
标签
格式化
可读存储介质
资源
关键词
指标
系统为您推荐了相关专利信息
识别方法
DBSCAN算法
生态环境保护技术
分辨率
数据
弹性性能预测方法
混凝土界面
性能预测模型
界面过渡区
参数
节理岩体隧道
侧压力系数
围岩级别
数值反演方法
隧道围岩
针尖定位方法
定位探针
灰度直方图
高斯金字塔
直线特征