摘要
本发明涉及数据处理的技术领域,公开了一种基于深度学习的document AI系统。所述基于深度学习的document AI系统,包括:数据预处理模块、OCR识别模块、表格检测模块、文档分类模块、字段信息提取模块、人工校验模块;所述数据预处理模块用于对用户上传的贸易单证pdf或图片文件进行格式转换和图像旋转角度检测,生成对应的图像数据;所述OCR识别模块用于通过预设的深度学习网络识别提取图像数据中的文字内容,生成对应的文档图像;本发明系统能适应多种类型的贸易单证文件,如pdf或图片格式,显示出良好的灵活性和兼容性。系统可以识别和处理复杂的表格结构,支持对表格内容的深入理解和分析,适用于多种业务场景。
技术关键词
表格
文本
字符
贸易单证
字段
多语言
检测文档图像
数据
深度学习网络
编码
文档分类
标签
服务端
校验模块
识别模块
深度学习模型
中间层
语义