基于随机森林模型的PDF段落识别方法、装置及相关组件

AITNT
正文
推荐专利
基于随机森林模型的PDF段落识别方法、装置及相关组件
申请号:CN202510478316
申请日期:2025-04-16
公开号:CN120411987A
公开日期:2025-08-01
类型:发明专利
摘要
本发明实施例提供了基于随机森林模型的PDF段落识别方法、装置及相关组件,该识别方法利用三个不同的训练参数对三个随机森林模型进行训练,得到三个训练后的随机森林模型,分别为第一随机森林模型、第二随机森林模型以及第三随机森林模型,利用训练后的第一随机森林模型能够识别PDF文档的可编辑区域,利用训练后的第二随机森林模型能够对文字对象容器中的文字对象进行行拼接,得到PDF文档的行对象,以及利用训练后的第三随机森林模型对行对象进行段落拼接,得到PDF文档的段落识别结果。本实施例的识别方法可对文字对象和路径对象进行识别,提高了随机森林模型的识别适应性。
技术关键词
随机森林模型 段落识别方法 对象 容器 编辑 参数 解析器 字符 基线 直线 可读存储介质 线段 处理器 识别装置 间距 计算机设备 颜色 存储器
系统为您推荐了相关专利信息
1
基于雷视融合的引导车对场面航空器的感知方法与系统
航空器 雷达点云数据 热力图 注意力 对象定位信息
2
适用极端天气下基于迁移学习的单目相机3D目标检测方法
查询特征 单目相机 前馈神经网络 注意力 天气
3
一种基于专家库的养路机械故障应对方法和装置
养路机械 案例库 推理机 故障诊断信息 对象
4
汽车零部件数据可视化生成方法、存储介质及程序产品
零部件结构 数据可视化 汽车零部件 三维可视化模型 生成方法
5
特殊地区订单配送方法、装置、设备及存储介质
车辆故障预测 订单配送方法 路况 物流 计算机可读指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号