用于文档内容识别和智能段落章节拆解的方法及系统

AITNT
正文
推荐专利
用于文档内容识别和智能段落章节拆解的方法及系统
申请号:CN202510142591
申请日期:2025-02-10
公开号:CN119598974B
公开日期:2025-04-22
类型:发明专利
摘要
本发明属于数据处理技术领域,具体涉及用于文档内容识别和智能段落章节拆解的方法及系统。方法包括:S1,将PDF文档拆分成页,并转换成图片;S2,对拆分后的PDF页进行DOM结构分析,获得文本字符集合;S3,对PDF页图片进行版面分析,获得版面区域集合;S4,将得到的文本字符集合和版面区域集合,聚合成字符分块;S5,对字符分块进行阅读顺序恢复操作;S6,定义标题匹配模式集合;S7,遍历分块序列的行序列,通过对比算法,得到目录之间的层级关系;S8,输出结构化的内容块结果;S9,将PDF页图片和内容块坐标进行可视化显示,用户绘制新的坐标区域,根据提供的坐标区域信息进行二次拆解。
技术关键词
分块 字符 序列 节点 图片 目录 坐标 定义 标记 关系 表格 文本行 页面 分支 二分算法 层级 容器结构 分析模块
系统为您推荐了相关专利信息
1
配电网分布式光伏调控方法、装置、终端设备及存储介质
集群 分布式光伏 有功功率 电力系统潮流 调控方法
2
基于双馈风电场的双时间尺度无功优化控制方法及系统
双馈风电场 优化控制模型 风电场集电系统 无功优化控制方法 长时间尺度
3
时序任务的决策生成方法、装置、设备及介质
决策生成方法 时序特征 多模态 记忆 推理网络
4
一种基于AIGC的博物馆文化传播系统
文化传播系统 文本生成模型 分层验证 视频特征向量 博物馆藏品
5
一种蛋白质-配体结合位点与亲和力预测方法及系统
复合型编码器 节点特征 亲和力 混合块 配体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号