一种光学字符识别方法及相关产品

AITNT
正文
推荐专利
一种光学字符识别方法及相关产品
申请号:CN202510809094
申请日期:2025-06-17
公开号:CN120708236A
公开日期:2025-09-26
类型:发明专利
摘要
本申请公开了一种光学字符识别方法及相关产品;该方法包括:获取非格式化文件;将非格式化文件输入至图生文模型中,得到非格式化文件对应的格式化文件;利用大语言模型对格式化文件进行校验,得到校验后的文件。在模型训练阶段,采用多个训练数据集对图生文模型进行多次迭代训练。训练数据集不仅包括不同类型的非格式化文件(如PDF文档、图像、扫描件、表格截图等),还涵盖了与其对应的结构化格式化文件(如Word文档、Excel表格等)。通过这种多模态、多格式的数据驱动方式,图生文模型能够充分学习不同类型文档之间的布局结构、语义表达和格式转换规律,增强模型的泛化能力和通用性。
技术关键词
光学字符识别方法 格式化 校验模型 参数 光学字符识别装置 大语言模型 数据驱动方式 表格 处理器 布局结构 计算机程序产品 校验模块 计算机设备 可读存储介质 多模态 图片 存储器 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号