摘要
本申请涉及文档解析技术领域,公开了一种用于页面文档的数据结构生成方法、系统及电子设备。该申请通过将页面文档中的导航标签作为当前标签,并响应于当前标签,根据标签类型将当前标签对应的子标签确定为待记录标签或新的当前标签,从而根据基于待记录标签生成的结构节点生成页面文档对应的数据结构,以页面文档中的导航标签作为解析起点,并以当前标签作为循环起点,根据待记录标签生成结构节点,并将干扰项的标签作为新的当前标签,以循环方式将页面文档中的文档标签逐一进行解析,从而根据结构节点生成页面文档对应的数据结构,在实现自动化生成数据结构的同时去除干扰标签,提高了数据结构的易读性。
技术关键词
数据结构生成方法
文本过滤方法
文档解析方法
标签结构
生成结构
节点
文档解析技术
生成页面
JSON结构
嵌套结构
电子设备
存储计算机程序
解析算法
字段
生成系统
存储器
系统为您推荐了相关专利信息
量化分析系统
图像分割
压缩特征
肺叶
生成结构化数据
大语言模型
攻击测试方法
多模态
生成结构
强化学习模型
兴趣点
车辆
信息处理方法
更新兴趣
生成结构化信息
量子数字签名
误差矩阵
矩阵乘法优化方法
计算误差
密钥