摘要
本发明涉及基于多模态与OCR模型融合的票据凭证信息提取方法:S1获取票据凭证的图像;S2对图像进行预处理;S3使用OCR引擎对预处理后的图像进行识别,得到每个文本块的文字内容和对应的二维坐标;S4将识别得到的文本片段和原始图像作为输入,使用预训练的多模态模型进行联合编码,模型评估并输出每段文本与预定义字段类别的匹配度,确定各字段的候选文本及其置信度;S5对关键字段进行精确定位和提取并校验OCR输出与语义结果的一致性;S6若校验结果冲突或某字段置识别信度低于阈值,则进行纠错操作;S7输出结构化的票据凭证信息。本发明通过多模态融合和迭代校正,有效降低了非标凭证信息抽取的错误率,适用于多种凭证格式和复杂场景。
技术关键词
信息提取方法
多模态
凭证
票据
文本
关键字
信息提取系统
视觉特征提取
图像获取模块
纠错模块
语义向量
校验模块
电子设备
边缘检测
处理器通信
校正
格式
系统为您推荐了相关专利信息
反馈校正系统
激光稳频
机器学习驱动
多模态数据采集
非线性降维算法
检测模型建立方法
心理
酒曲
曲粉
检测模型训练方法
风险评估方法
合同文本数据
风险点
风险评估规则
风险评估报告