一种基于大语言模型的网页数据解析方法

正文

推荐专利

一种基于大语言模型的网页数据解析方法

申请号：CN202411682821

申请日期：2024-11-22

公开号：CN119917757A

公开日期：2025-05-02

类型：发明专利

摘要

本发明属于网页数据解析技术领域，具体涉及一种基于大语言模型的网页数据解析方法，包括：获取用户输入的目标网站URL；利用大语言模型对输入的URL进行初步解析；解析每个网站的DOM结构，提取HTML元素及其层次关系；根据解析结果生成相应的数据爬取脚本；执行数据爬取脚本，从每个网站中提取所需数据；对提取到的数据进行预处理；将预处理后的数据进行多源融合；从融合数据中提取主要信息；将最终处理和抽取的信息存储到数据库中。本发明实现了对复杂网页数据的自动解析、智能化的实体提取与知识扩展，以及高效的数据融合与去重。

技术关键词

网页数据解析方法大语言模型页面多源融合标签生成搜索查询脚本数据解析技术模拟浏览器关键词分页机制生成数据库网站结构判断网页爬虫嵌套格式关系元素

一种基于大语言模型的网页数据解析方法

站点导航

APP 下载