摘要
本发明公开了一种基于栈机制实现的高效文档切分方法,包括:进行文档预处理,基于标题范式对标题进行筛选和根据栈元素对文档进行分块;其在基于标题范式对标题进行筛选中包括对标题进行等级划分:遍历标题列表之后,逐个判断其标题等级,如随后对标题等级进行确认,并更新所述行的标题等级。本发明将文档按照标题等级来不断划分成不同大小的块,从而能够根据不同文档类型、语言结构以及用户需求,实现高效、准确、语义连贯的文档切分。
技术关键词
元素
列表
机制
文本行
分块
格式化
目录
语义
冗余
变量
对象
系统为您推荐了相关专利信息
视觉检测方法
表面图像数据
三维点云数据
非瞬时性计算机可读存储介质
打印机
核电机器人
启发式搜索算法
路径规划方法
节点
能量消耗
程序验证方法
嵌入式系统
设备身份认证
密钥管理
固件