文本提取方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
文本提取方法、装置、电子设备及存储介质
申请号:CN202411729883
申请日期:2024-11-28
公开号:CN119202359B
公开日期:2025-04-04
类型:发明专利
摘要
本申请公开了一种文本提取方法、装置、电子设备及存储介质,涉及数据采集领域。其中,该方法包括:依据网页源码中的网页标签确定至少一个目标DOM树,其中,每个目标DOM树中的树节点均为目标树节点,目标树节点所对应的文本块为非空文本,并且目标树节点的至少一层的上级节点所对应的网页标签为目标网页标签,目标网页标签包括用于圈定网页正文的目标要素;根据每个目标树节点的文本权重和结构权重,从所有的目标树节点中筛选得到正文树节点;从网页中提取正文树节点对应的文本块。本申请解决了现有技术中基于统计的方式提取网页的文本内容,导致的网页正文内容提取不准确的技术问题。
技术关键词
文本提取方法 节点 标签 文本提取装置 网页正文内容 布局结构 超参数 可读存储介质 处理单元 电子设备 计算机 策略 处理器 语义 存储器 程序 层级 数据
系统为您推荐了相关专利信息
1
基于多版本控制的算法插件协同开发方法及系统
算法插件 协同开发环境 节点 支持向量机算法 协同开发方法
2
针对源储荷协同调度策略的安全计算方法与装置
源储荷协同 协同调度策略 储能装置 节点 高压配电网重构
3
数据处理方法、装置及电子设备
训练样本数据 芯片 档位 终端 基准
4
一种基于句法增强的多维向量化文本相似度计算方法
分词 条件随机场模型 集成学习策略 度计算方法 集成变换器
5
一种通过识别液体形态和特性的渗漏识别方法及系统
识别液体 多模态深度学习 激光扫描设备 识别方法 摄像设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号