一种基于KNN算法的PDF文档拆分方法、介质及系统

AITNT
正文
推荐专利
一种基于KNN算法的PDF文档拆分方法、介质及系统
申请号:CN202411845015
申请日期:2024-12-16
公开号:CN119782527A
公开日期:2025-04-08
类型:发明专利
摘要
本发明涉及一种基于KNN算法的PDF文档拆分方法、介质及系统,所述方法包括以下步骤:获取待拆分的PDF文档,通过KNN分类模型对待拆分的PDF文档中的文本进行分类预测,识别PDF文档中的标题页,收集标题页文本所在页码,得到标题页集合;根据标题页集合将PDF文档逐段拆分,得到多个独立的PDF文档;其中,KNN分类模型的训练步骤如下:获取PDF文档,遍历PDF文档的每一页,提取文本信息;将字号信息作为独立特征来构建特征矩阵;根据字号信息将PDF文档的文本标记为标题页和非标题页,并将标题页和非标题页的标签信息存储在标签向量中;结合特征矩阵和标签向量,构建训练数据集,对KNN分类模型进行训练。与现有技术相比,本发明提高拆分精度,减少人为干预。
技术关键词
文档拆分方法 KNN算法 文本 标签信息存储 独立特征 上存储计算机程序 拆分系统 字典结构 可读存储介质 矩阵 跨度 指标 标记 模块 数据 目录 处理器
系统为您推荐了相关专利信息
1
一种基于视频理解的多模态检索方法
模态检索方法 图像特征提取模型 关键词 特征向量值 字幕
2
一种基于模态和策略互补性的半监督多模态分类方法
半监督多模态 分类方法 策略 文本 数据
3
一种图像生成方法、装置、电子设备及存储介质
图像生成模型 服饰 图像生成方法 样本 人脸特征
4
一种基于大语言模型的标准编审方法及系统
大语言模型 工作流 json格式数据 生成结构化数据 文本
5
基于大语言模型的审计方法与系统
大语言模型 审计方法 Paillier加密方法 适配器 跨模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号