摘要
本公开提供了一种网页信息提取方法、装置、设备及存储介质,其中,该方法包括:获取目标网页链接,基于目标网页链接确定目标网页,并从目标网页中提取出与预设标题集合匹配的至少一个第一网页标题,基于目标网页的网页结构布局,确定目标网页对应的目标树结构,从目标树结构中筛选出与至少一个目标节点,分别确定各个目标节点对应的第二网页标题,这里目标节点与第一网页标题所对应的节点具有相同的父节点,针对每个第二网页标题,判断第二网页标题是否携带新的网页链接,将不携带新的网页链接的第二网页标题以及该第二网页标题的内容描述信息确定为目标网页信息,本公开实施例设计了通用化的提取方法,从而无需针对每个网页都人工开发算法。
技术关键词
网页结构
网页信息提取方法
节点
布局结构
超文本标记语言
机器可读指令
页面
处理器
可读存储介质
关系
电子设备
存储器
匹配模块
嵌套
计算机
算法
基础
系统为您推荐了相关专利信息
车辆轨迹规划方法
斥力势场
人工势场
邻域
闭环控制
机电暂态仿真模型
振荡抑制方法
变量
方程
节点导纳矩阵
虚拟仿真技术
语义场景
教学系统
子模块
任务调度