摘要
本发明涉及一种基于KNN算法的PDF文档拆分方法、介质及系统,所述方法包括以下步骤:获取待拆分的PDF文档,通过KNN分类模型对待拆分的PDF文档中的文本进行分类预测,识别PDF文档中的标题页,收集标题页文本所在页码,得到标题页集合;根据标题页集合将PDF文档逐段拆分,得到多个独立的PDF文档;其中,KNN分类模型的训练步骤如下:获取PDF文档,遍历PDF文档的每一页,提取文本信息;将字号信息作为独立特征来构建特征矩阵;根据字号信息将PDF文档的文本标记为标题页和非标题页,并将标题页和非标题页的标签信息存储在标签向量中;结合特征矩阵和标签向量,构建训练数据集,对KNN分类模型进行训练。与现有技术相比,本发明提高拆分精度,减少人为干预。
技术关键词
文档拆分方法
KNN算法
文本
标签信息存储
独立特征
上存储计算机程序
拆分系统
字典结构
可读存储介质
矩阵
跨度
指标
标记
模块
数据
目录
处理器
系统为您推荐了相关专利信息
模态检索方法
图像特征提取模型
关键词
特征向量值
字幕
大语言模型
工作流
json格式数据
生成结构化数据
文本
大语言模型
审计方法
Paillier加密方法
适配器
跨模态