摘要
本公开实施例涉及一种文档识别方法、装置、设备及介质,其中该方法包括:获取目标文档图像;提取目标文档图像中文档元素的位置和文字内容;对目标文档图像、文档元素的位置和文字内容进行特征处理,得到多模态特征;基于多模态特征进行处理得到目标文档图像对应的目标文档内容,其中,目标文档内容包括按照阅读顺序排序的文档元素对应的文字内容。本公开结合目标文档图像、文档元素的位置和文字内容进行特征处理得到的多模态特征通过阅读顺序模型可以还原文档内容,该文档内容包括按照阅读顺序排序的文档元素的文字内容,实现了利用多模态特征按照阅读顺序还原图像对应的文档,尤其涉及到复杂场景,极大提升文档识别的准确性。
技术关键词
多模态特征
文档识别方法
元素
语义特征
布局特征
图像
文档识别装置
词特征
视觉特征
解码器
文本行
电子设备
处理器
识别模块
可读存储介质
索引
指令
存储器
系统为您推荐了相关专利信息
图表
自定义输出
状态指示器
工作流模型
格式图像数据
风险评分模型
鼻咽癌患者
脂蛋白
可执行程序代码
偏最小二乘回归模型
交互方法
交互系统
运动特征
多模态传感器
场景上下文