一种基于属性感知的Web网页信息抽取方法及装置

AITNT
正文
推荐专利
一种基于属性感知的Web网页信息抽取方法及装置
申请号:CN202411618688
申请日期:2024-11-13
公开号:CN119166927B
公开日期:2025-02-18
类型:发明专利
摘要
本发明公开一种基于属性感知的Web网页信息抽取方法及装置,属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据,将其保存下来作为模型的原始输入,在原始数据上对数据进行预处理,去除script等原始数据中无用的标签输入,减少输入模型的噪声信息;提取网页中的变量节点,构造输入模型的token序列和xpath序列,同时记录序列的位置信息,在预训练模型的基础上增加属性感知嵌入模块,使得预训练模型模型能够感知到性的模式信息,将输入信息的嵌入通过一个分类层,模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率,为下游任务提供丰富的结构化知识,促进下游任务的发展。
技术关键词
网页信息抽取方法 信息抽取模型 预训练模型 序列 HTTP请求报文 节点 网页信息抽取技术 爬虫爬取 变量 处理单元 可读存储介质 文本 关键字 格式 分类器 噪声信息 模式
系统为您推荐了相关专利信息
1
一种基于BMS的电池故障诊断方法及系统
电池故障诊断方法 动态预测模型 电池状态参数 电池状态数据 检测数据输入
2
一种用于双臂二指结构魔方机器人机械动作的时间寻优方法
魔方机器人 贪心算法 魔方还原 路径寻优方法 机械手指
3
一种基于LSTM-DNN的复合材料渐进式破坏预测方法
时间序列特征 蒙特卡洛方法 生成复合材料 损失函数优化 因子
4
基于物联网的电能表生产数据管理方法及装置
电表 测试电能表 控制采集装置 序列 码放机械
5
一种基于多源数据同步耦合分析的滞气爆管风险分级分类动态评估预警模型建立方法
预警模型建立方法 数据同步 风险 强度 管道
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号