基于框坐标的PDF文本提取方法和装置

AITNT
正文
推荐专利
基于框坐标的PDF文本提取方法和装置
申请号:CN202511133076
申请日期:2025-08-13
公开号:CN121033854A
公开日期:2025-11-28
类型:发明专利
摘要
本申请公开了一种基于框坐标的PDF文本提取方法和装置,涉及文本提取技术领域。该方法包括:根据设置有框坐标的若干原始文本块,对PDF文档进行版面分析,得到设置有框坐标和类型标签的若干标准文本块;对设置有框坐标和类型标签的若干标准文本块进行有向图建模,得到有向图;使用群智能优化算法,获取有向图的文本排序路径,并根据文本排序路径,对有向图对应的标准文本块进行连接,得到PDF文本流。解决了现有技术存在的对复杂版式适应性差、语义理解能力弱以及缺乏全局优化视角的问题。
技术关键词
文本提取方法 群智能优化算法 坐标 识别文本块 标签 页面 元素 文本提取技术 文本提取装置 对齐模块 注意力机制 网络 图像分割算法 节点 分析单元
系统为您推荐了相关专利信息
1
基于ChineseBERT的知识增强隐式情感分析方法、装置及设备
情感分析方法 编码向量 拼音 标签类别 实体
2
基于改进河马算法优化FFN的多特征质量预测方法
算法 数据 网络拓扑结构构建 参数 样本
3
一种面向大型回转装备大型盘片零件的大承载自动调心调平装置及方法
调心调平装置 标定方法 光谱共焦传感器 航空发动机叶片 安装误差角
4
表项处理方法、装置、网络设备及存储介质
网络设备 芯片 端口 标识符 标签
5
一种基于秘密共享的XGBoost纵向联邦学习方法及系统
纵向联邦学习方法 结点 孩子 XGBoost模型 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号