一种模板网站关键源码片段识别方法

AITNT
正文
推荐专利
一种模板网站关键源码片段识别方法
申请号:CN202410768709
申请日期:2024-06-14
公开号:CN118796264B
公开日期:2025-10-28
类型:发明专利
摘要
本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端/移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。
技术关键词
识别方法 机器学习模型 网站发现技术 识别互联网 模板 样本 专家知识库 决策树模型 页面代码 正则化参数 移动端 数据 图片 标签 格式化 可读存储介质 资源 关键词 指标
系统为您推荐了相关专利信息
1
一种大范围重大空气污染识别方法
识别方法 DBSCAN算法 生态环境保护技术 分辨率 数据
2
一种混凝土界面过渡区弹性性能预测方法及装置
弹性性能预测方法 混凝土界面 性能预测模型 界面过渡区 参数
3
图像匹配方法、装置、电子设备及存储介质
模板 图像匹配方法 像素 对象 存储计算机程序
4
一种基于数值样本的隧道围岩固有频率确定方法及系统
节理岩体隧道 侧压力系数 围岩级别 数值反演方法 隧道围岩
5
一种基于图像处理的GSG探针针尖定位方法
针尖定位方法 定位探针 灰度直方图 高斯金字塔 直线特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号