基于多维度特征的通用二阶段网页信息提取方法和系统

AITNT
正文
推荐专利
基于多维度特征的通用二阶段网页信息提取方法和系统
申请号:CN202411693666
申请日期:2024-11-25
公开号:CN119646331B
公开日期:2025-10-17
类型:发明专利
摘要
本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。
技术关键词
网页信息提取方法 节点 解析网页 文本特征向量 BiLSTM模型 多层卷积神经网络 深度优先搜索算法 摘要 模块 网页信息提取系统 标签特征 分类模型训练 阶段 解码器 前馈神经网络 网页结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号