摘要
本发明属于网页数据解析技术领域,具体涉及一种基于大语言模型的网页数据解析方法,包括:获取用户输入的目标网站URL;利用大语言模型对输入的URL进行初步解析;解析每个网站的DOM结构,提取HTML元素及其层次关系;根据解析结果生成相应的数据爬取脚本;执行数据爬取脚本,从每个网站中提取所需数据;对提取到的数据进行预处理;将预处理后的数据进行多源融合;从融合数据中提取主要信息;将最终处理和抽取的信息存储到数据库中。本发明实现了对复杂网页数据的自动解析、智能化的实体提取与知识扩展,以及高效的数据融合与去重。
技术关键词
网页数据解析方法
大语言模型
页面
多源融合
标签
生成搜索查询
脚本
数据解析技术
模拟浏览器
关键词
分页机制
生成数据库
网站结构
判断网页
爬虫
嵌套
格式
关系
元素