摘要
本发明提供一种文档解析方法、装置、电子设备和计算机可读存储介质,通过将待解析文档按照行划分方式划分为多个文本单元,并获得各文本单元在待解析文档中的行号。按照行号的排序依次遍历各文本单元,将遍历到的每相邻两个文本单元输入预先训练得到的文档解析模型中进行语义分析,输出语义分析结果。基于语义分析结果判断每相邻两个文本单元是否属于同一个语义片段。本方案中,利用文档解析模型通过语义分析的方式判断文本单元是否属于同一个语义片段,可为后续文本单元的拼接提供依据,具有更强的泛化性能和更高的准确性。
技术关键词
文档解析方法
文本
语义
样本
计算机可执行指令
切片
可读存储介质
字符
电子设备
解析装置
处理器
分析模块
存储器
系统为您推荐了相关专利信息
物流运输装备
迁移学习模型
故障诊断方法
拓扑特征
多任务学习模型
基因表达数据
诊断方法
分类器
计算机可执行指令
患者
建设工程监理
工程进度计划
支持向量机模型
资源分配
因子