一种基于大语言模型的网页数据提取方法

AITNT
正文
推荐专利
一种基于大语言模型的网页数据提取方法
申请号:CN202511034346
申请日期:2025-07-25
公开号:CN121030074A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于大语言模型的网页数据提取方法,包括:利用大型语言模型生成Xpath序列网页抓取器,通过两阶段框架来处理多样化和变化的网络环境——在第一阶段,利用LLM信息提取能力倒排查找去除HTML的噪音,再根据HTML的层次结构进行Xpath动作序列的自适应生成;根据LLMs的外部评价机制与本地评价机制相结合,将一阶段不同网页上生成的多个Xpath动作序列整合,产生特定于网站的通用抓取器。本发明在零样本设置下始终超越基线方法,并在大规模网页信息提取任务中展现出更高的效率,该方法能够快速适应不同网站和任务需求,并在处理类似任务时减少对LLMs的依赖,从而提高处理大量网页任务时的效率。
技术关键词
网页数据提取方法 大语言模型 文本 序列 抓取器 列表 节点 网页信息提取 数据提取系统 信息项 生成可执行 计算机存储介质 元素 生成技术 两阶段 模块 格式化 存储器 机制
系统为您推荐了相关专利信息
1
基于知识图谱的糖尿病干预智能推荐方法
智能推荐方法 策略 序列 细粒度特征 协方差矩阵
2
一种类特定注意力的帧内加权医学影像质控方法及系统
质控方法 医学影像数据 空间特征提取 图像 时序
3
多任务抢占的片上内存优化方法、装置、介质和设备
内存优化方法 分块 指令 神经网络模型 变量
4
基于大语言模型的医疗问答方法和装置
动态 医疗问答方法 控件 大语言模型 医学
5
一种工业机器人协作优化系统
人形机器人关节 关节力矩 工业机器人 多自由度关节 分析模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号