网页信息提取方法、装置、设备及存储介质

AITNT
正文
推荐专利
网页信息提取方法、装置、设备及存储介质
申请号:CN202411079063
申请日期:2024-08-07
公开号:CN118606537B
公开日期:2024-11-29
类型:发明专利
摘要
本公开提供了一种网页信息提取方法、装置、设备及存储介质,其中,该方法包括:获取目标网页链接,基于目标网页链接确定目标网页,并从目标网页中提取出与预设标题集合匹配的至少一个第一网页标题,基于目标网页的网页结构布局,确定目标网页对应的目标树结构,从目标树结构中筛选出与至少一个目标节点,分别确定各个目标节点对应的第二网页标题,这里目标节点与第一网页标题所对应的节点具有相同的父节点,针对每个第二网页标题,判断第二网页标题是否携带新的网页链接,将不携带新的网页链接的第二网页标题以及该第二网页标题的内容描述信息确定为目标网页信息,本公开实施例设计了通用化的提取方法,从而无需针对每个网页都人工开发算法。
技术关键词
网页结构 网页信息提取方法 节点 布局结构 超文本标记语言 机器可读指令 页面 处理器 可读存储介质 关系 电子设备 存储器 匹配模块 嵌套 计算机 算法 基础
系统为您推荐了相关专利信息
1
一种基于人工势场法的网联自动驾驶车辆轨迹规划方法
车辆轨迹规划方法 斥力势场 人工势场 邻域 闭环控制
2
适用于SVG的机电暂态仿真的数值振荡抑制方法
机电暂态仿真模型 振荡抑制方法 变量 方程 节点导纳矩阵
3
基于跨领域知识融合的城市产业交互影响预测方法及系统
融合知识图谱 路径分析方法 动态 数据 实体
4
一种虚拟仿真技术驱动的产教融合教学系统
虚拟仿真技术 语义场景 教学系统 子模块 任务调度
5
一种基于Linux的应用自动化部署的方法与系统
故障诊断规则 节点 计划 列表 动态资源调度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号