摘要
本发明公开了一种文档标题树的构建方法、装置、终端设备及存储介质,通过将所述原始文件转换为纯文本格式,以提高标题识别效率以及文本分割效率,通过根据标题在待识别文件中的行文顺序,分批执行标题树构建操作,提高标题树构建模型语义识别的准确性。并且在非首次进行标题树构建操作时,将已有的子标题文本树中从根节点到最右叶节点路径上的若干第一标题,与待识别的目标标题以及目标文本内容一同输入到标题树构建模型中,以使标题树构建模型根据第一标题的层级关系,来确定目标标题之间的层级关系,进而保证不同组别的标题之间的层级连贯性,克服当下文档标题树构建技术的标题层级结构不够准确或存在偏差的缺陷。
技术关键词
文本
层级
字符
关系
语义
终端设备
节点
列表
处理器
识别模块
存储器
格式
计算机
偏差
系统为您推荐了相关专利信息
分片
区块链共识机制
共识方法
路段
交通流量信息
度计算方法
图像纹理特征
二维离散小波变换
图案
灰度直方图
数据查询方法
指令
计算机程序产品
电子设备
数据查询装置
混凝土振捣器
优化布置方法
鲸鱼优化算法
桥梁建设施工技术
外壳