一种基于随机森林回归的HTML列表行XPath生成方法、系统及计算机程序产品

正文

推荐专利

申请号：CN202410826435

申请日期：2024-06-25

公开号：CN118656561A

公开日期：2024-09-17

类型：发明专利

摘要

本申请涉及网络数据处理和机器学习领域，特别是一种基于随机森林回归的HTML列表行XPath生成方法、系统及计算机程序产品。本发明的方法通过爬虫技术获取待解析的含列表行的HTML文档，然后使用特征提取模型提取HTML文档的节点特征，并按照节点类型对节点特征进行平衡分类，然后通过随机森林回归算法计算每个节点成为列表行的概率值，并输出概率值最高的节点的XPath信息作为提取结果。本发明的方法能够有效提高从多样化HTML结构中自动识别和提取列表行的准确性和效率。本发明不仅优化了数据抽取流程，还为进一步的数据分析和处理提供了支持，具有广泛的应用前景。

技术关键词

节点特征随机森林生成方法列表特征提取模型计算机程序产品爬虫算法计算机系统上执行支持向量机回归回归算法计算机可执行指令中文文本特征提取模块爬虫技术数据获取模块数据处理模块标签输出模块

系统为您推荐了相关专利信息

一种基于稳定扩散模型的建筑设计图生成方法及系统

图像生成模型建筑图像超分辨率算法残差矩阵浅层特征提取

一种嵌入式代码的自动生成方法及装置

Modelica语言嵌入式代码自动生成方法变量 Modelica模型

基于数智大脑的数据分析方法及系统

随机森林模型数据分析方法计算机程序指令生成样本数据标签

基于机器学习的集中器误差校准方法

误差校准方法时序电能误差皮尔逊相关系数随机森林

一种变电站主设备巡视虚拟现实应用自动生成方法和系统

虚拟变电站变电站主设备变电站场景自动生成方法三维信息模型

一种基于随机森林回归的HTML列表行XPath生成方法、系统及计算机程序产品

站点导航

APP 下载