一种基于大语言模型的网页数据提取方法

正文

推荐专利

一种基于大语言模型的网页数据提取方法

申请号：CN202511034346

申请日期：2025-07-25

公开号：CN121030074A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于大语言模型的网页数据提取方法，包括：利用大型语言模型生成Xpath序列网页抓取器，通过两阶段框架来处理多样化和变化的网络环境——在第一阶段，利用LLM信息提取能力倒排查找去除HTML的噪音，再根据HTML的层次结构进行Xpath动作序列的自适应生成；根据LLMs的外部评价机制与本地评价机制相结合，将一阶段不同网页上生成的多个Xpath动作序列整合，产生特定于网站的通用抓取器。本发明在零样本设置下始终超越基线方法，并在大规模网页信息提取任务中展现出更高的效率，该方法能够快速适应不同网站和任务需求，并在处理类似任务时减少对LLMs的依赖，从而提高处理大量网页任务时的效率。

技术关键词

网页数据提取方法大语言模型文本序列抓取器列表节点网页信息提取数据提取系统信息项生成可执行计算机存储介质元素生成技术两阶段模块格式化存储器机制

系统为您推荐了相关专利信息

基于知识图谱的糖尿病干预智能推荐方法

智能推荐方法策略序列细粒度特征协方差矩阵

一种类特定注意力的帧内加权医学影像质控方法及系统

质控方法医学影像数据空间特征提取图像时序

多任务抢占的片上内存优化方法、装置、介质和设备

内存优化方法分块指令神经网络模型变量

基于大语言模型的医疗问答方法和装置

动态医疗问答方法控件大语言模型医学

一种工业机器人协作优化系统

人形机器人关节关节力矩工业机器人多自由度关节分析模块

一种基于大语言模型的网页数据提取方法

站点导航

APP 下载