摘要
本发明公开了一种页面信息提取方法、装置及电子设备,其中,该方法包括:基于资源定位符获取目标网页,并根据渲染需求构建与目标网页对应的目标DOM节点树;将目标DOM节点树和预先编辑的信息提取指令输入信息提取模型,得到待填充信息;将待填充信息填充至目标模板,生成目标文档。通过基于资源定位符获取目标网页,并根据渲染需求构建与目标网页对应的目标DOM节点树,有效避免对目标网页的全量渲染,大大降低了渲染工作量,达到了提高渲染效率,降低动态资源消耗。同时,通过直接对目标DOM节点树进行信息提取,可以广泛应用于不同的页面信息提取,更加灵活。
技术关键词
页面信息提取方法
信息提取模型
节点
资源定位符
校验信息
指令
编辑
文档生成模块
信息提取装置
文本
电子设备
模板
处理器通信
标签
数据格式
基础
关键字
系统为您推荐了相关专利信息
通信网络架构
监控方法
数据流特征
多维时序数据
运维