一种用于发票识别模型的训练数据增强方法及系统

AITNT
正文
推荐专利
一种用于发票识别模型的训练数据增强方法及系统
申请号:CN202411842501
申请日期:2024-12-13
公开号:CN119296108B
公开日期:2025-02-18
类型:发明专利
摘要
本发明提供一种用于发票识别模型的训练数据增强方法及系统,包括:将发票图片输入通用文本检测模型得到文本区域;将文本区域输入通用文字识别模型得到识别文本;从票务系统获取发票所有字段值,校正后得到真实文本;为识别文本匹配对应的真实文本;确定识别文本在真实文本中的相对位置,补全未被识别到的文本,计算补全后完整文本区域的位置信息;将识别文本中的引导词与其对应的真实文本进行拼接,得到完整文本信息;将发票图片作为输入,完整文本区域的位置信息为标签,构建文本检测训练数据;将完整文本区域作为输入,完整文本信息为标签,构建文字识别训练数据。本发明能够自动修正通用模型在发票场景下的识别误差,生成高质量标注数据。
技术关键词
发票 文本检测模型 票务系统 图片 字符 区域位置信息 数据 编辑 动态规划算法 标签 识别误差 计算机程序产品 坐标 指令 计算方法 顶点 可读存储介质 校正 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号