摘要
本申请提供了一种网页内容提取方法以及电子设备,其中,该方法包括:对待提取网页进行段落提取,得到待提取网页的至少一个页面段落,根据各页面段落的各标签内容,确定各页面段落中的非标签内容是否为正文内容,若是,则提取正文内容,并将页面段落作为一个目标正文段落,根据待提取网页的页面布局信息,对至少一个目标正文段落进行合并处理,得到待提取网页的正文提取结果。通过对网页内容进行解析,并基于网页内容中的标签识别得到网页的正文内容,可以实现自动化的正文内容提取,本申请不必对网页中的图注、链接等进行预先删除,因此可以减少人工成本,并且针对不同样式的网页具有很好的通用性。
技术关键词
网页内容提取方法
标签
语义相关度
布局
层叠样式表
机器可读指令
转换方法
文本
电子设备
调用页面
处理器
图片
元素
参数
数据
系统为您推荐了相关专利信息
卫星云图
系统识别方法
深度学习网络模型
天气
特征金字塔网络