摘要
本申请公开了一种基于框坐标的PDF文本提取方法和装置,涉及文本提取技术领域。该方法包括:根据设置有框坐标的若干原始文本块,对PDF文档进行版面分析,得到设置有框坐标和类型标签的若干标准文本块;对设置有框坐标和类型标签的若干标准文本块进行有向图建模,得到有向图;使用群智能优化算法,获取有向图的文本排序路径,并根据文本排序路径,对有向图对应的标准文本块进行连接,得到PDF文本流。解决了现有技术存在的对复杂版式适应性差、语义理解能力弱以及缺乏全局优化视角的问题。
技术关键词
文本提取方法
群智能优化算法
坐标
识别文本块
标签
页面
元素
文本提取技术
文本提取装置
对齐模块
注意力机制
网络
图像分割算法
节点
分析单元
系统为您推荐了相关专利信息
调心调平装置
标定方法
光谱共焦传感器
航空发动机叶片
安装误差角
纵向联邦学习方法
结点
孩子
XGBoost模型
样本