摘要
本申请实施例提供一种数据标注方法、装置、设备及存储介质,所述方法可以在获取待标注数据后,根据图像类型,构建识别模板。并获取待标注数据的文字识别数据,以及基于识别模板,在文字识别数据中提取标题数据和内容数据,从而根据标题数据、内容数据以及识别模板生成标注数据。其中,所述标题数据为与标题部分相似度大于或等于相似度阈值的文字内容;所述内容数据为根据文字坐标和内容部分对应位置确定的文字内容。所述方法能够用于OCR训练数据的标注任务中,通过OCR算法模型和数据处理脚本对OCR识别结果进行错误文字修正、错误文字提醒以及文本结构恢复,可有效提升训练数据的标注效率。
技术关键词
模板
数据标注方法
算法模型
图像
坐标
文本
脚本
锚点
深度学习模型
标注装置
数据获取模块
处理器
格式
服务器
计算机设备
标记
识别模块
接口
系统为您推荐了相关专利信息
视频通话场景
视频通话数据
大语言模型
多模态
人像特征
特征值
OTSU算法
亮点
滑动平均滤波
图像处理技术
特征提取器
分类图像数据
原始图像数据
修复方法
样本