网页内容提取方法以及电子设备

AITNT
正文
推荐专利
网页内容提取方法以及电子设备
申请号:CN202411883145
申请日期:2024-12-19
公开号:CN119807502A
公开日期:2025-04-11
类型:发明专利
摘要
本申请提供了一种网页内容提取方法以及电子设备,其中,该方法包括:对待提取网页进行段落提取,得到待提取网页的至少一个页面段落,根据各页面段落的各标签内容,确定各页面段落中的非标签内容是否为正文内容,若是,则提取正文内容,并将页面段落作为一个目标正文段落,根据待提取网页的页面布局信息,对至少一个目标正文段落进行合并处理,得到待提取网页的正文提取结果。通过对网页内容进行解析,并基于网页内容中的标签识别得到网页的正文内容,可以实现自动化的正文内容提取,本申请不必对网页中的图注、链接等进行预先删除,因此可以减少人工成本,并且针对不同样式的网页具有很好的通用性。
技术关键词
网页内容提取方法 标签 语义相关度 布局 层叠样式表 机器可读指令 转换方法 文本 电子设备 调用页面 处理器 图片 元素 参数 数据
系统为您推荐了相关专利信息
1
一种卫星云图海上天气系统识别方法、装置、设备及介质
卫星云图 系统识别方法 深度学习网络模型 天气 特征金字塔网络
2
虚拟目标识别方法、装置、电子设备及存储介质
风格 图像 索引 标签 识别方法
3
一种基于虚拟对象的图表展示方法及装置
虚拟对象 文本 图表展示方法 数据 视觉
4
基于大模型的自动化作文评分与反馈的方法及系统
大语言模型 学生 光学字符识别技术 客户端 数据
5
面向共享电单车的暴力破坏行为识别方法、系统和设备
共享电单车 多模态 识别方法 图像特征向量 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号