一种文档表格的提取方法、装置、设备及介质

AITNT
正文
推荐专利
一种文档表格的提取方法、装置、设备及介质
申请号:CN202511394050
申请日期:2025-09-28
公开号:CN120877323B
公开日期:2025-12-26
类型:发明专利
摘要
本发明公开了一种文档表格的提取方法、装置、设备及介质,涉及计算机信息处理技术领域。提取方法包括:对待处理的文档表格图像进行OCR识别,得到文本块;对文档表格图像进行视觉特征编码,得到深层视觉特征;对文本块的文本序列进行语义特征编码,得到语义特征向量;对文本块的边界框进行空间特征编码,得到空间特征向量;将深层视觉特征、语义特征向量和空间特征向量进行特征融合处理,得到多模态引导特征;对多模态引导特征进行结构化解码处理,得到表格的结构化表示。本发明通过OCR预识别的文本及位置信息与文档表格视觉特征融合,引导视觉特征的重新表达,主动对齐到由先验信息定义的逻辑结构上,提高了表格逻辑结构的提取准确性。
技术关键词
文本 表格 视觉特征编码 校正 序列 多模态 图像 语义特征 置信度阈值 交叉注意力机制 语义先验 处理器 解码模块 识别模块 可读存储介质
系统为您推荐了相关专利信息
1
数据查询方法、装置、电子设备及存储介质
查询维度信息 指标 数据查询方法 机器学习模型 查询意图
2
一种基于知识基座的域自适应文本分类方法及系统
文本分类方法 三元组 数据训练神经网络 枢轴 构建知识图谱
3
针对非连续实体的实体关系联合抽取方法及装置
实体关系抽取模型 实体关系联合抽取方法 字符 分类器 标签
4
地质灾害的预警方法、装置、存储介质以及电子设备
预警方法 地质灾害预警 应力 时间序列特征 周期性特征
5
一种基于靶向捕获测序的肉鸡液相芯片及其应用
位点 序列 核苷酸 遗传多样性分析 液相芯片技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号