摘要
本发明公开了一种文档表格的提取方法、装置、设备及介质,涉及计算机信息处理技术领域。提取方法包括:对待处理的文档表格图像进行OCR识别,得到文本块;对文档表格图像进行视觉特征编码,得到深层视觉特征;对文本块的文本序列进行语义特征编码,得到语义特征向量;对文本块的边界框进行空间特征编码,得到空间特征向量;将深层视觉特征、语义特征向量和空间特征向量进行特征融合处理,得到多模态引导特征;对多模态引导特征进行结构化解码处理,得到表格的结构化表示。本发明通过OCR预识别的文本及位置信息与文档表格视觉特征融合,引导视觉特征的重新表达,主动对齐到由先验信息定义的逻辑结构上,提高了表格逻辑结构的提取准确性。
技术关键词
文本
表格
视觉特征编码
校正
序列
多模态
图像
语义特征
置信度阈值
交叉注意力机制
语义先验
处理器
解码模块
识别模块
可读存储介质
系统为您推荐了相关专利信息
查询维度信息
指标
数据查询方法
机器学习模型
查询意图
文本分类方法
三元组
数据训练神经网络
枢轴
构建知识图谱
实体关系抽取模型
实体关系联合抽取方法
字符
分类器
标签
预警方法
地质灾害预警
应力
时间序列特征
周期性特征