基于随机森林模型的PDF段落识别方法、装置及相关组件

正文

推荐专利

申请号：CN202510478316

申请日期：2025-04-16

公开号：CN120411987A

公开日期：2025-08-01

类型：发明专利

摘要

本发明实施例提供了基于随机森林模型的PDF段落识别方法、装置及相关组件，该识别方法利用三个不同的训练参数对三个随机森林模型进行训练，得到三个训练后的随机森林模型，分别为第一随机森林模型、第二随机森林模型以及第三随机森林模型，利用训练后的第一随机森林模型能够识别PDF文档的可编辑区域，利用训练后的第二随机森林模型能够对文字对象容器中的文字对象进行行拼接，得到PDF文档的行对象，以及利用训练后的第三随机森林模型对行对象进行段落拼接，得到PDF文档的段落识别结果。本实施例的识别方法可对文字对象和路径对象进行识别，提高了随机森林模型的识别适应性。

技术关键词

随机森林模型段落识别方法对象容器编辑参数解析器字符基线直线可读存储介质线段处理器识别装置间距计算机设备颜色存储器

系统为您推荐了相关专利信息

基于雷视融合的引导车对场面航空器的感知方法与系统

航空器雷达点云数据热力图注意力对象定位信息

适用极端天气下基于迁移学习的单目相机3D目标检测方法

查询特征单目相机前馈神经网络注意力天气

一种基于专家库的养路机械故障应对方法和装置

养路机械案例库推理机故障诊断信息对象

汽车零部件数据可视化生成方法、存储介质及程序产品

零部件结构数据可视化汽车零部件三维可视化模型生成方法

特殊地区订单配送方法、装置、设备及存储介质

车辆故障预测订单配送方法路况物流计算机可读指令

基于随机森林模型的PDF段落识别方法、装置及相关组件

站点导航

APP 下载