摘要
本发明实施例提供了基于随机森林模型的PDF段落识别方法、装置及相关组件,该识别方法利用三个不同的训练参数对三个随机森林模型进行训练,得到三个训练后的随机森林模型,分别为第一随机森林模型、第二随机森林模型以及第三随机森林模型,利用训练后的第一随机森林模型能够识别PDF文档的可编辑区域,利用训练后的第二随机森林模型能够对文字对象容器中的文字对象进行行拼接,得到PDF文档的行对象,以及利用训练后的第三随机森林模型对行对象进行段落拼接,得到PDF文档的段落识别结果。本实施例的识别方法可对文字对象和路径对象进行识别,提高了随机森林模型的识别适应性。
技术关键词
随机森林模型
段落识别方法
对象
容器
编辑
参数
解析器
字符
基线
直线
可读存储介质
线段
处理器
识别装置
间距
计算机设备
颜色
存储器
系统为您推荐了相关专利信息
航空器
雷达点云数据
热力图
注意力
对象定位信息
零部件结构
数据可视化
汽车零部件
三维可视化模型
生成方法
车辆故障预测
订单配送方法
路况
物流
计算机可读指令