摘要
本发明涉及信息提取技术领域,尤其涉及一种电子档案的信息提取方法及提取系统。所述方法包括以下步骤:获取待处理电子档案并进行OCR识别,生成初始文本数据;对初始文本数据执行错误检测,识别其中的OCR误识别候选项;针对每一OCR误识别候选项,依据其上下文语义及版面结构生成第一数据命名;提取第一数据命名的低层面特征,并利用预设的领域词表结合第一数据命名对每一OCR误识别候选项进行命名实体识别;本发明通过“误识别检测+命名实体识别+语义纠错+模板化提取”四位一体流程,解决了现有OCR识别不准、纠错能力差、信息提取智能度低等核心技术瓶颈,显著提高了电子档案信息提取的准确性、稳定性和智能化水平。
技术关键词
信息提取方法
数据
文本
命名实体识别
执行错误检测
字符
版面结构
电子
字段
信息提取系统
位置映射
纠错
生成结构化信息
语义结构
句法结构
分区
信息提取技术
图像