一种基于大模型的OCR文档智能要素提取系统

正文

推荐专利

申请号：CN202511051067

申请日期：2025-07-29

公开号：CN120894796A

公开日期：2025-11-04

类型：发明专利

摘要

本发明涉及OCR识别与自然语言处理技术领域，且公开了一种基于大模型的OCR文档智能要素提取系统，包括OCR识别与大模型要素提取系统、基于本地正反向知识库二次优化系统、内容提取标准化与智能纠错的后处理系统、专家确认系统以及知识库系统，所述OCR识别与大模型要素提取系统将大模型基于要素提取规则对OCR识别后的文档进行内容提取。该基于大模型的OCR文档智能要素提取系，正向知识库通过沉淀专家优化经验，可自动修正类似场景的OCR识别偏差；反向知识库能过滤历史验证的错误结果，避免重复误检；内容标准化环节针对手写体OCR识别偏差导致的语义不通问题，结合CV模型的字形相似度计算与大模型语义分析，实现对提取结果的多模态交叉验证与智能纠错。

技术关键词

知识库系统后处理系统 CV模型关键词识别偏差纠错语义手写体识别印刷体知识库管理自然语言识别正确率汉字结构多模态同义词列表拼音票据书籍

系统为您推荐了相关专利信息

基于数据挖掘的用户数据分析方法

数据分析方法语句网页关键词特征值指数

一种待办任务生成方法及装置

音频生成方法噪声强度信号短时傅里叶变换

违规信息识别方法、装置、设备、存储介质及计算机程序产品

信息识别方法案例库文本信息识别设备计算机程序产品

基于行为分析的信息处理方法、装置、设备及介质

信息处理方法信息处理程序语义特征机器学习分类器时间段

用于试验数据的多模态融合分析方法及系统

融合分析方法节点置信度阈值多模态变量

一种基于大模型的OCR文档智能要素提取系统

站点导航

APP 下载