一种模板网站关键源码片段识别方法

正文

推荐专利

一种模板网站关键源码片段识别方法

申请号：CN202410768709

申请日期：2024-06-14

公开号：CN118796264B

公开日期：2025-10-28

类型：发明专利

摘要

本发明涉及模板网站发现技术领域，公开了一种模板网站关键源码片段识别方法，包括基于PC端/移动端两种UserAgent获取网站的页面源代码，并且获取到图片、文件等外链资源；获取到完整的网页源码信息后，通过构建源码文件和源码片段的提取规则，获取到HTML、JS、CSS、IMG片段或文件；基于人工分析并形成评价源码相关性和通用性的指标体系，通过人工标注一批正样本和负样本；基于机器学习模型进行训练，形成网站关键源码片段研判模型；通过模型对实时源码片段数据进行分析，并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系，基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下，支撑对大量网站和源码进行快速匹配识别模板网站，大大提高了识别效率降低算力消耗。

技术关键词

识别方法机器学习模型网站发现技术识别互联网模板样本专家知识库决策树模型页面代码正则化参数移动端数据图片标签格式化可读存储介质资源关键词指标

系统为您推荐了相关专利信息

一种大范围重大空气污染识别方法

识别方法 DBSCAN算法生态环境保护技术分辨率数据

一种混凝土界面过渡区弹性性能预测方法及装置

弹性性能预测方法混凝土界面性能预测模型界面过渡区参数

图像匹配方法、装置、电子设备及存储介质

模板图像匹配方法像素对象存储计算机程序

一种基于数值样本的隧道围岩固有频率确定方法及系统

节理岩体隧道侧压力系数围岩级别数值反演方法隧道围岩

一种基于图像处理的GSG探针针尖定位方法

针尖定位方法定位探针灰度直方图高斯金字塔直线特征

一种模板网站关键源码片段识别方法

站点导航

APP 下载