摘要
本发明公开一种基于属性感知的Web网页信息抽取方法及装置,属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据,将其保存下来作为模型的原始输入,在原始数据上对数据进行预处理,去除script等原始数据中无用的标签输入,减少输入模型的噪声信息;提取网页中的变量节点,构造输入模型的token序列和xpath序列,同时记录序列的位置信息,在预训练模型的基础上增加属性感知嵌入模块,使得预训练模型模型能够感知到性的模式信息,将输入信息的嵌入通过一个分类层,模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率,为下游任务提供丰富的结构化知识,促进下游任务的发展。
技术关键词
网页信息抽取方法
信息抽取模型
预训练模型
序列
HTTP请求报文
节点
网页信息抽取技术
爬虫爬取
变量
处理单元
可读存储介质
文本
关键字
格式
分类器
噪声信息
模式
系统为您推荐了相关专利信息
电池故障诊断方法
动态预测模型
电池状态参数
电池状态数据
检测数据输入
魔方机器人
贪心算法
魔方还原
路径寻优方法
机械手指
时间序列特征
蒙特卡洛方法
生成复合材料
损失函数优化
因子