一种基于大语言模型的网页数据解析方法

AITNT
正文
推荐专利
一种基于大语言模型的网页数据解析方法
申请号:CN202411682821
申请日期:2024-11-22
公开号:CN119917757A
公开日期:2025-05-02
类型:发明专利
摘要
本发明属于网页数据解析技术领域,具体涉及一种基于大语言模型的网页数据解析方法,包括:获取用户输入的目标网站URL;利用大语言模型对输入的URL进行初步解析;解析每个网站的DOM结构,提取HTML元素及其层次关系;根据解析结果生成相应的数据爬取脚本;执行数据爬取脚本,从每个网站中提取所需数据;对提取到的数据进行预处理;将预处理后的数据进行多源融合;从融合数据中提取主要信息;将最终处理和抽取的信息存储到数据库中。本发明实现了对复杂网页数据的自动解析、智能化的实体提取与知识扩展,以及高效的数据融合与去重。
技术关键词
网页数据解析方法 大语言模型 页面 多源融合 标签 生成搜索查询 脚本 数据解析技术 模拟浏览器 关键词 分页机制 生成数据库 网站结构 判断网页 爬虫 嵌套 格式 关系 元素
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号