摘要
本申请适用于数据处理技术领域,提供了基于OCR技术的数据提取方法、装置、设备及介质,所述方法包括:根据预设数据类型将待识别文件的图像数据进行划分,得到文本区域和图表区域;基于光学字符识别技术对所述文本区域进行文字识别,得到文本数据,并将所述文本数据输入预设语义识别模型,得到第一数据;通过结构化数据识别技术对所述图表区域进行数据识别,得到第二数据;将所述第一数据和所述第二数据按预设格式进行存储与展示。通过将字符识别技术和语义分析技术相结合,实现对待识别文件中的数据进行智能识别的过程,不需要人工查找并录入数据,同时,面对不同形式的数据类型采用不同的识别方法,保证基于OCR技术的数据提取的准确,避免数据遗漏。
技术关键词
数据提取方法
光学字符识别技术
数据识别技术
图表
文本
识别算法
图像
语句
计算方法
数据提取装置
语义角色标注
列表
格式
命名实体识别
数据处理设备
可读存储介质
系统为您推荐了相关专利信息
评价指标体系
评价系统
可视化方式
评价方法
动态
融合建模方法
文本
多头注意力机制
语义特征
多模态情感分析
标签分类方法
文本
大语言模型
注意力机制
梯度下降算法