摘要
本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。
技术关键词
网页信息提取方法
节点
解析网页
文本特征向量
BiLSTM模型
多层卷积神经网络
深度优先搜索算法
摘要
模块
网页信息提取系统
标签特征
分类模型训练
阶段
解码器
前馈神经网络
网页结构