基于OCR技术的数据提取方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202410929092

申请日期：2024-07-11

公开号：CN118781607A

公开日期：2024-10-15

类型：发明专利

摘要

本申请适用于数据处理技术领域，提供了基于OCR技术的数据提取方法、装置、设备及介质，所述方法包括：根据预设数据类型将待识别文件的图像数据进行划分，得到文本区域和图表区域；基于光学字符识别技术对所述文本区域进行文字识别，得到文本数据，并将所述文本数据输入预设语义识别模型，得到第一数据；通过结构化数据识别技术对所述图表区域进行数据识别，得到第二数据；将所述第一数据和所述第二数据按预设格式进行存储与展示。通过将字符识别技术和语义分析技术相结合，实现对待识别文件中的数据进行智能识别的过程，不需要人工查找并录入数据，同时，面对不同形式的数据类型采用不同的识别方法，保证基于OCR技术的数据提取的准确，避免数据遗漏。

技术关键词

数据提取方法光学字符识别技术数据识别技术图表文本识别算法图像语句计算方法数据提取装置语义角色标注列表格式命名实体识别数据处理设备可读存储介质

系统为您推荐了相关专利信息

产品推荐内容生成方法和装置、电子设备及存储介质

需求预测模型画像内容生成方法身份产品标签

一种城市碳汇建设评价方法及系统

评价指标体系评价系统可视化方式评价方法动态

面向不完整数据的双极情感不确定性融合建模方法

融合建模方法文本多头注意力机制语义特征多模态情感分析

长文本的标签分类方法、装置、设备、存储介质及产品

标签分类方法文本大语言模型注意力机制梯度下降算法

一种双语场景下尾注、脚注自动编号对齐方法、装置介质

对齐方法标签格式化信息场景机器翻译技术

基于OCR技术的数据提取方法、装置、设备及存储介质

站点导航

APP 下载