一种基于预训练大模型的网络数据自适应采集方法和系统

AITNT
正文
推荐专利
一种基于预训练大模型的网络数据自适应采集方法和系统
申请号:CN202411710839
申请日期:2024-11-27
公开号:CN119884527A
公开日期:2025-04-25
类型:发明专利
摘要
本发明提出了一种基于预训练大模型的网络数据自适应采集方法和系统,通过将网页数据中的HTML标签和自定义属性添加到分词器Token izer的词汇表中,对预训练大模型的嵌入层进行初始化,并利用预处理的模型训练样本和词汇表对预训练大模型进行增量训练和有监督微调训练生成网络结构识别大模型,对输入的网页数据进行解析得到网页结构化数据,按照预先设置的时间间隔定期获取目标网页的截图,将网页结构化数据和网页截图分别进行差异对比,通过差异检测算法生成差异列表,计算综合置信度评分;根据差异列表生成具体的爬虫调整策略,对现有的爬虫规则进行更新。本发明具有更强的泛化和自适应能力,能自动适应频繁变化的网页结构,并提高数据采集的效率和准确性。
技术关键词
网页结构化数据 预训练模型 爬虫 列表 网页元素 计算机视觉技术 网络结构 深度优先搜索算法 图像 生成结构 网页模型 构造网页 自动化工具 静态网页 动态网页 策略更新
系统为您推荐了相关专利信息
1
一种基于掩码建模和权重分析的工控协议格式字段推断方法
工控协议 推断方法 字段 注意力 格式
2
一种司法信息数据字段处理系统
文本 字段 事件生成单元 信号分析模块 数据字
3
颅内动脉瘤自动分割方法和系统
自动分割方法 预训练网络 编码特征 编码器 融合特征
4
一种基于大数据的企业财务风险智能分析方法及系统
智能分析系统 特征工程 大数据 智能分析方法 时间序列分析技术
5
一种基于数字地球的三维气象显示方法及系统
气象 模型建立方法 数据处理方式 三维显示模块 数据源管理
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号