一种基于属性感知的Web网页信息抽取方法及装置

正文

推荐专利

申请号：CN202411618688

申请日期：2024-11-13

公开号：CN119166927B

公开日期：2025-02-18

类型：发明专利

摘要

本发明公开一种基于属性感知的Web网页信息抽取方法及装置，属于网页信息抽取技术领域。包括：爬取给定目标网站的原始网页数据，将其保存下来作为模型的原始输入，在原始数据上对数据进行预处理，去除script等原始数据中无用的标签输入，减少输入模型的噪声信息；提取网页中的变量节点，构造输入模型的token序列和xpath序列，同时记录序列的位置信息，在预训练模型的基础上增加属性感知嵌入模块，使得预训练模型模型能够感知到性的模式信息，将输入信息的嵌入通过一个分类层，模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率，为下游任务提供丰富的结构化知识，促进下游任务的发展。

技术关键词

网页信息抽取方法信息抽取模型预训练模型序列 HTTP请求报文节点网页信息抽取技术爬虫爬取变量处理单元可读存储介质文本关键字格式分类器噪声信息模式

系统为您推荐了相关专利信息

一种基于BMS的电池故障诊断方法及系统

电池故障诊断方法动态预测模型电池状态参数电池状态数据检测数据输入

一种用于双臂二指结构魔方机器人机械动作的时间寻优方法

魔方机器人贪心算法魔方还原路径寻优方法机械手指

一种基于LSTM-DNN的复合材料渐进式破坏预测方法

时间序列特征蒙特卡洛方法生成复合材料损失函数优化因子

基于物联网的电能表生产数据管理方法及装置

电表测试电能表控制采集装置序列码放机械

一种基于多源数据同步耦合分析的滞气爆管风险分级分类动态评估预警模型建立方法

预警模型建立方法数据同步风险强度管道

一种基于属性感知的Web网页信息抽取方法及装置

站点导航

APP 下载