摘要
本发明公开了一种基于大语言模型的网页数据提取方法,包括:利用大型语言模型生成Xpath序列网页抓取器,通过两阶段框架来处理多样化和变化的网络环境——在第一阶段,利用LLM信息提取能力倒排查找去除HTML的噪音,再根据HTML的层次结构进行Xpath动作序列的自适应生成;根据LLMs的外部评价机制与本地评价机制相结合,将一阶段不同网页上生成的多个Xpath动作序列整合,产生特定于网站的通用抓取器。本发明在零样本设置下始终超越基线方法,并在大规模网页信息提取任务中展现出更高的效率,该方法能够快速适应不同网站和任务需求,并在处理类似任务时减少对LLMs的依赖,从而提高处理大量网页任务时的效率。
技术关键词
网页数据提取方法
大语言模型
文本
序列
抓取器
列表
节点
网页信息提取
数据提取系统
信息项
生成可执行
计算机存储介质
元素
生成技术
两阶段
模块
格式化
存储器
机制
系统为您推荐了相关专利信息
人形机器人关节
关节力矩
工业机器人
多自由度关节
分析模块