一种基于KNN算法的PDF文档拆分方法、介质及系统

正文

推荐专利

申请号：CN202411845015

申请日期：2024-12-16

公开号：CN119782527A

公开日期：2025-04-08

类型：发明专利

摘要

本发明涉及一种基于KNN算法的PDF文档拆分方法、介质及系统，所述方法包括以下步骤：获取待拆分的PDF文档，通过KNN分类模型对待拆分的PDF文档中的文本进行分类预测，识别PDF文档中的标题页，收集标题页文本所在页码，得到标题页集合；根据标题页集合将PDF文档逐段拆分，得到多个独立的PDF文档；其中，KNN分类模型的训练步骤如下：获取PDF文档，遍历PDF文档的每一页，提取文本信息；将字号信息作为独立特征来构建特征矩阵；根据字号信息将PDF文档的文本标记为标题页和非标题页，并将标题页和非标题页的标签信息存储在标签向量中；结合特征矩阵和标签向量，构建训练数据集，对KNN分类模型进行训练。与现有技术相比，本发明提高拆分精度，减少人为干预。

技术关键词

文档拆分方法 KNN算法文本标签信息存储独立特征上存储计算机程序拆分系统字典结构可读存储介质矩阵跨度指标标记模块数据目录处理器

系统为您推荐了相关专利信息

一种基于视频理解的多模态检索方法

模态检索方法图像特征提取模型关键词特征向量值字幕

一种基于模态和策略互补性的半监督多模态分类方法

半监督多模态分类方法策略文本数据

一种图像生成方法、装置、电子设备及存储介质

图像生成模型服饰图像生成方法样本人脸特征

一种基于大语言模型的标准编审方法及系统

大语言模型工作流 json格式数据生成结构化数据文本

基于大语言模型的审计方法与系统

大语言模型审计方法 Paillier加密方法适配器跨模态

一种基于KNN算法的PDF文档拆分方法、介质及系统

站点导航

APP 下载