摘要
本说明书的多个实施例涉及信息技术领域,具体涉及一种面向异构系统的智能字段识别方法及系统。所述方法包括步骤:采集目标网页的文档对象模型的DOM结构与上下文文本信息;提取DOM元素,结合其上下文文本信息,并借助预先训练且融入基层治理术语库的语义模型,生成DOM特征;筛选出包含待识别字段的DOM特征构成待识别库;计算DOM特征与预设的元素特征库中的元素特征的相似度;根据所述相似度及预设的优先级规则,确定待识别字段匹配的元素特征,根据所述元素特征获得匹配的字段;实时监听并根据网页元素的变化,更新所述待识别库;所述DOM特征包括ID特征、标签特征、上下文特征以及视觉特征。
技术关键词
面向异构系统
生成DOM元素
标签特征
上下文特征
视觉特征
语义向量
识别方法
文档对象模型
可执行程序代码
网页元素
BERT模型
字段
文本
术语
大规模语料库
处理器
存储器
计算机程序产品