一种非规范文档的切片处理方法

正文

推荐专利

一种非规范文档的切片处理方法

申请号：CN202510101066

申请日期：2025-01-22

公开号：CN119538921B

公开日期：2025-04-11

类型：发明专利

摘要

本发明涉及文本处理技术领域，具体公开了一种非规范文档的切片处理方法，包括以下步骤：S1：确定第一关键词和第二关键词；S2：获取第一词向量和第二词向量，基于第一词向量和第二词向量确定子段落和章节名称之间的关联程度；S3：根据关联程度确定待定段落，对待定段落进行排序得到段落排序；确定目标段落对应的章节名称，根据新的章节名称再次确定待定段落；当不存在待定段落时判定文档完成规范化，对规范化后的文档进行切片。本发明通过对非规范文档进行规范化和切片，提高召回的准确性。

技术关键词

关键词切片摘要深度学习模型文本处理技术分词中子列表算法

系统为您推荐了相关专利信息

低信噪比环境下宽带无线传输的时域分散调制解调方法

深度学习模型调制解调方法低信噪比环境接收机中频信号

群体成员识别方法、装置、计算机设备和存储介质

兴趣文本主题关键词分词识别方法

一种基于深度学习的多模态混合数据库储存和交互方法

多模态深度学习交互方法融合特征多模态数据融合深度学习模型

智能化风电场站的设备故障诊断方法、系统以及设备

故障诊断模型设备故障诊断方法设备状态参数解码参数字符

数据处理方法、装置、智能体、电子设备和存储介质

标签数据处理方法标识数据处理装置电子设备

一种非规范文档的切片处理方法

站点导航

APP 下载