文档解析方法、装置、电子设备和计算机可读存储介质

正文

推荐专利

申请号：CN202411520580

申请日期：2024-10-29

公开号：CN119476256A

公开日期：2025-02-18

类型：发明专利

摘要

本发明提供一种文档解析方法、装置、电子设备和计算机可读存储介质，通过将待解析文档按照行划分方式划分为多个文本单元，并获得各文本单元在待解析文档中的行号。按照行号的排序依次遍历各文本单元，将遍历到的每相邻两个文本单元输入预先训练得到的文档解析模型中进行语义分析，输出语义分析结果。基于语义分析结果判断每相邻两个文本单元是否属于同一个语义片段。本方案中，利用文档解析模型通过语义分析的方式判断文本单元是否属于同一个语义片段，可为后续文本单元的拼接提供依据，具有更强的泛化性能和更高的准确性。

技术关键词

文档解析方法文本语义样本计算机可执行指令切片可读存储介质字符电子设备解析装置处理器分析模块存储器

系统为您推荐了相关专利信息

多目标检测模型训练方法、多目标检测方法、设备及介质

检测模型训练方法对象样本特征提取模块数据

歌声转换系统的训练方法、生成音频的方法及相关装置

编码向量文本编码器音素后验概率多头注意力机制音频

一种元数据管理方法及计算设备

元数据管理系统关系网络节点元数据管理方法终端设备

设备知识图谱数据的标注方法及装置

工矿设备设备特性数据大语言模型实体知识图谱数据

一种基于自然语言的智能数据查询方法

自然语言主题数据库大语言模型数据查询方法目录

文档解析方法、装置、电子设备和计算机可读存储介质

站点导航

APP 下载