摘要
本发明提供一种文档解析方法、装置、电子设备和计算机可读存储介质,通过将待解析文档按照行划分方式划分为多个文本单元,并获得各文本单元在待解析文档中的行号。按照行号的排序依次遍历各文本单元,将遍历到的每相邻两个文本单元输入预先训练得到的文档解析模型中进行语义分析,输出语义分析结果。基于语义分析结果判断每相邻两个文本单元是否属于同一个语义片段。本方案中,利用文档解析模型通过语义分析的方式判断文本单元是否属于同一个语义片段,可为后续文本单元的拼接提供依据,具有更强的泛化性能和更高的准确性。
技术关键词
文档解析方法
文本
语义
样本
计算机可执行指令
切片
可读存储介质
字符
电子设备
解析装置
处理器
分析模块
存储器
系统为您推荐了相关专利信息
编码向量
文本编码器
音素后验概率
多头注意力机制
音频
元数据管理系统
关系网络
节点
元数据管理方法
终端设备
工矿设备
设备特性数据
大语言模型
实体
知识图谱数据
自然语言
主题数据库
大语言模型
数据查询方法
目录