摘要
本发明提供了项目备案证明的识别提取方法及系统,所述识别提取方法应用于包括预识别单元、文本拼接单元、文字修正单元和信息提取单元的识别提取系统中,具体为:对项目备案证明文件进行预识别,获取若干个文本对以及文本对的位置信息;基于空间密度聚类,根据文本对的位置信息对文本对进行聚类,根据聚类结果拼接文本对,获取文本区域;对文本区域内的模糊字符进行识别和修正;对修正后的文本区域进行信息提取,获取项目备案证明信息。本发明通过空间位置分析和处理提高了对于各种文字形式识别的适应度,降低了文件结构的复杂度,并进一步通过模糊字符的修正提高文字识别的准确性,保障了对于项目备案证明文件的信息提取准确性。
技术关键词
识别提取方法
文本
字符
项目
语义向量
聚类
拼接单元
预训练语言模型
生成候选词
语义库
密度
距离信息
坐标
复杂度
字段
模板
参数
系统为您推荐了相关专利信息
模态特征
数据检索方法
非易失性存储介质
多模态
图像特征提取模型
语义向量
话术推荐方法
客户
计算机程序产品
存储器