摘要
本申请公开了一种光学字符识别方法及相关产品;该方法包括:获取非格式化文件;将非格式化文件输入至图生文模型中,得到非格式化文件对应的格式化文件;利用大语言模型对格式化文件进行校验,得到校验后的文件。在模型训练阶段,采用多个训练数据集对图生文模型进行多次迭代训练。训练数据集不仅包括不同类型的非格式化文件(如PDF文档、图像、扫描件、表格截图等),还涵盖了与其对应的结构化格式化文件(如Word文档、Excel表格等)。通过这种多模态、多格式的数据驱动方式,图生文模型能够充分学习不同类型文档之间的布局结构、语义表达和格式转换规律,增强模型的泛化能力和通用性。
技术关键词
光学字符识别方法
格式化
校验模型
参数
光学字符识别装置
大语言模型
数据驱动方式
表格
处理器
布局结构
计算机程序产品
校验模块
计算机设备
可读存储介质
多模态
图片
存储器
语义