摘要
本申请提出一种企业文档分类方法及装置,包括:获取待处理企业文档中各语义实体对应的结构属性向量;基于预先训练的第一模型对结构属性向量进行目标检测和结构解析,获取结构属性向量的特征集和不同结构属性向量之间的层次结构关系;基于预先训练的第二模型对特征集和层次结构关系进行匹配,获取版面得到重构的目标文档。通过第一模型对待处理企业文档中各语义实体对应的结构属性向量进行目标检测和结构解析,获取对应的特征集和各结构属性向量之间的层次结构关系;通过第二模型对特征集和层次结构关系进行匹配,获取版面得到重构的目标文档。极大地提高对手写文档、排版复杂文档、专业领域技术文档的识别精度,具有广泛地适用性。
技术关键词
语义实体
文档分类方法
非临时性计算机可读存储介质
企业
关系
文档分类装置
重构
电子设备
处理器
文本
计算机程序产品
特征工程
模块
格式化
布局
指令
标签
排版
聚类