一种基于预训练大模型的网络数据自适应采集方法和系统

正文

推荐专利

申请号：CN202411710839

申请日期：2024-11-27

公开号：CN119884527A

公开日期：2025-04-25

类型：发明专利

摘要

本发明提出了一种基于预训练大模型的网络数据自适应采集方法和系统，通过将网页数据中的HTML标签和自定义属性添加到分词器Token izer的词汇表中，对预训练大模型的嵌入层进行初始化，并利用预处理的模型训练样本和词汇表对预训练大模型进行增量训练和有监督微调训练生成网络结构识别大模型，对输入的网页数据进行解析得到网页结构化数据，按照预先设置的时间间隔定期获取目标网页的截图，将网页结构化数据和网页截图分别进行差异对比，通过差异检测算法生成差异列表，计算综合置信度评分；根据差异列表生成具体的爬虫调整策略，对现有的爬虫规则进行更新。本发明具有更强的泛化和自适应能力，能自动适应频繁变化的网页结构，并提高数据采集的效率和准确性。

技术关键词

网页结构化数据预训练模型爬虫列表网页元素计算机视觉技术网络结构深度优先搜索算法图像生成结构网页模型构造网页自动化工具静态网页动态网页策略更新

系统为您推荐了相关专利信息

一种基于掩码建模和权重分析的工控协议格式字段推断方法

工控协议推断方法字段注意力格式

一种司法信息数据字段处理系统

文本字段事件生成单元信号分析模块数据字

颅内动脉瘤自动分割方法和系统

自动分割方法预训练网络编码特征编码器融合特征

一种基于大数据的企业财务风险智能分析方法及系统

智能分析系统特征工程大数据智能分析方法时间序列分析技术

一种基于数字地球的三维气象显示方法及系统

气象模型建立方法数据处理方式三维显示模块数据源管理

一种基于预训练大模型的网络数据自适应采集方法和系统

站点导航

APP 下载