摘要
本申请公开了一种文档处理方法、装置、计算机设备、存储介质及程序产品,属于计算机技术领域。所述方法包括:获取待处理文档;待处理文档为可携带文档格式;对待处理文档逐页解析,得到各页面的页面内容,并分别对各页面内容进行语义分块识别,得到多个语义分块;根据模态感知的语义提取策略,从各语义分块中分别提取语义要素;按照预定义的语义分块结构体,对语义要素进行标准化封装,生成多个结构体实例,以用于在语义任务中关联待处理文档中的原始内容。本申请能够提高动态分块的灵活性和准确性,进而提升后续语义任务的准确性。
技术关键词
分块
页面内容
关键词
表格
文本行
字段
图片
非暂态计算机可读存储介质
计算机设备
语义向量
线框结构
排版结构
语义意图
变量
分析页面
处理器
计算机程序产品