摘要
本发明涉及OCR识别与自然语言处理技术领域,且公开了一种基于大模型的OCR文档智能要素提取系统,包括OCR识别与大模型要素提取系统、基于本地正反向知识库二次优化系统、内容提取标准化与智能纠错的后处理系统、专家确认系统以及知识库系统,所述OCR识别与大模型要素提取系统将大模型基于要素提取规则对OCR识别后的文档进行内容提取。该基于大模型的OCR文档智能要素提取系,正向知识库通过沉淀专家优化经验,可自动修正类似场景的OCR识别偏差;反向知识库能过滤历史验证的错误结果,避免重复误检;内容标准化环节针对手写体OCR识别偏差导致的语义不通问题,结合CV模型的字形相似度计算与大模型语义分析,实现对提取结果的多模态交叉验证与智能纠错。
技术关键词
知识库系统
后处理系统
CV模型
关键词
识别偏差
纠错
语义
手写体识别
印刷体
知识库管理
自然语言
识别正确率
汉字结构
多模态
同义词
列表
拼音
票据
书籍
系统为您推荐了相关专利信息
信息识别方法
案例库
文本
信息识别设备
计算机程序产品
信息处理方法
信息处理程序
语义特征
机器学习分类器
时间段