摘要
本发明涉及一种基于图片识别技术的财报表格数据加工方法,获取财务公告并对财务公告中的图片进行以下操作:图片预处理:使用FLD算法对线条边缘进行检测,并将倾斜图片进行矫正;表格检测:构建YOLO表格定位模型获取到图片内表格的位置和方向信息,进行正确旋转;表格识别:对表格线条进行检测,将表格结构化成单元格图片数据;构建CRNN+CTC文本识别模型并进行识别,构建BERT模型进行表格分类;数据纠错:提取财务科目列,构建BiLSTM‑CRF科目容错模型,得出初步正确的标准科目列表;根据余弦相似度算法进行筛选,根据财务的平衡公式进行平衡校验;数据加工入库。解决了财务数据加工系统对财报表格数据处理存在准确性和时效性不足的问题,提高了图片数据加工自动化率。
技术关键词
文本识别模型
图片识别技术
财务
表格数据处理
线条
训练集
数据库表结构
BERT模型
样本
矫正
算法
纠错
像素
时效性
列表
比率