摘要
文档还原方法、装置、电子设备、存储介质以及程序产品。本公开提供一种文档还原方法,包括:获取目标文档图像;提取目标文档图像中文档元素的位置和与文档元素对应的文字内容;确定目标文档图像中的文档元素块以及文档元素块的位置;基于文档元素块的位置,确定文档元素块的排列顺序;基于文档元素块的排列顺序对文档元素的位置以及文字内容进行初步排序,得到经初步排序的文档元素的位置以及经初步排序的文字内容;对目标文档图像、经初步排序的文档元素的位置和经初步排序的文字内容进行特征处理,得到多模态特征;以及基于多模态特征进行还原得到目标文档图像对应的目标文档内容。本公开还提供了文档还原装置、电子设备、计算机可读存储介质以及计算机程序产品。
技术关键词
元素
多模态特征
游程编码
文本行
索引
还原方法
图像
序列
非暂态计算机可读存储介质
游程解码
计算机程序指令
布局特征
还原装置
计算机程序产品
竖直距离
视觉特征
语义特征
电子设备
解码器