摘要
本申请提供了一种基于纯文本数据的通用卡证识别模型构建方法及系统,根据本申请的方法包括:获取证件样张数据集,对所述证件样张数据集进行自定义数据扩增,得到纯文本信息提取数据集,将所述纯文本信息提取数据集分为训练集和验证集;以及将所述训练集输入至通用信息提取模型中进行训练,得到通用卡证识别模型,并通过所述验证集验证所述通用卡证识别模型,得到最终的通用卡证识别模型;所述方法进一步包括:通过所述最终的通用卡证识别模型对若干种类的证件进行识别与信息提取,并同时利用预构建的文本分类模型对若干种类的证件进行分类,根据分类结果对提取到的证件信息进行后处理,得到用户所需的证件信息。
技术关键词
文本信息提取
证件
识别模型构建方法
信息提取模型
文本分类模型
模型构建系统
数据模块
列表
训练集
可读存储介质
模板
处理器
语句
格式
存储器
计算机
对象
电子设备
系统为您推荐了相关专利信息
词语
语义特征
集成化管理系统
数据处理单元
数据归档
匹配分析方法
动态权重分配
匹配分析系统
BERT模型
数据信息处理技术
财务核算方法
标识
电子发票
纸质凭证
信息提取模型
特征信息提取
文本编码器
视觉特征
训练特征提取模型
处理单元