摘要
本申请公开了一种文本提取方法、装置、电子设备及存储介质,涉及数据采集领域。其中,该方法包括:依据网页源码中的网页标签确定至少一个目标DOM树,其中,每个目标DOM树中的树节点均为目标树节点,目标树节点所对应的文本块为非空文本,并且目标树节点的至少一层的上级节点所对应的网页标签为目标网页标签,目标网页标签包括用于圈定网页正文的目标要素;根据每个目标树节点的文本权重和结构权重,从所有的目标树节点中筛选得到正文树节点;从网页中提取正文树节点对应的文本块。本申请解决了现有技术中基于统计的方式提取网页的文本内容,导致的网页正文内容提取不准确的技术问题。
技术关键词
文本提取方法
节点
标签
文本提取装置
网页正文内容
布局结构
超参数
可读存储介质
处理单元
电子设备
计算机
策略
处理器
语义
存储器
程序
层级
数据
系统为您推荐了相关专利信息
算法插件
协同开发环境
节点
支持向量机算法
协同开发方法
源储荷协同
协同调度策略
储能装置
节点
高压配电网重构
分词
条件随机场模型
集成学习策略
度计算方法
集成变换器
识别液体
多模态深度学习
激光扫描设备
识别方法
摄像设备