摘要
本发明提供一种问答数据提取方法及装置,所述方法包括:对数据来源图像进行文本识别,得到待提取文本;对数据来源图像进行版面分析,确定版面信息,版面信息用于表征待提取文本中各文本块的物理属性和各文本块在待提取文本中的空间排布特征;基于待提取文本的语义内容,以及版面信息,从待提取文本中提取问题文本以及与问题文本匹配的答案文本。本发明能更准确地理解文本的结构和语义,有效处理包含复杂公式和图表的文档,提高了问答数据提取的准确性和效率,解决了传统方法在处理复杂文档时识别精度低、提取效率低的问题。
技术关键词
数据提取方法
答案
文本识别
图像
语义
非暂态计算机可读存储介质
数据提取装置
视觉特征
物理
处理器
计算机程序产品
纠错
分析单元
存储器
电子设备
图表
关系
思路
系统为您推荐了相关专利信息
表面缺陷检测方法
发动机缸体
工业相机
检测缸体
超声表面波
收费数据融合
状态监测方法
交通状态信息
历史交通数据
多源交通数据
充电站负荷预测
归一化模块
时间序列特征
分支
数据