摘要
本发明提供一种用于发票识别模型的训练数据增强方法及系统,包括:将发票图片输入通用文本检测模型得到文本区域;将文本区域输入通用文字识别模型得到识别文本;从票务系统获取发票所有字段值,校正后得到真实文本;为识别文本匹配对应的真实文本;确定识别文本在真实文本中的相对位置,补全未被识别到的文本,计算补全后完整文本区域的位置信息;将识别文本中的引导词与其对应的真实文本进行拼接,得到完整文本信息;将发票图片作为输入,完整文本区域的位置信息为标签,构建文本检测训练数据;将完整文本区域作为输入,完整文本信息为标签,构建文字识别训练数据。本发明能够自动修正通用模型在发票场景下的识别误差,生成高质量标注数据。
技术关键词
发票
文本检测模型
票务系统
图片
字符
区域位置信息
数据
编辑
动态规划算法
标签
识别误差
计算机程序产品
坐标
指令
计算方法
顶点
可读存储介质
校正
处理器