一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质

正文

推荐专利

申请号：CN202510219479

申请日期：2025-02-26

公开号：CN120148056A

公开日期：2025-06-13

类型：发明专利

摘要

本发明属于图像数据处理的技术领域，更具体地，涉及一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质。所述方法包括S1构建多模态大模型M，以对图像中的表格内容进行识别与拆分；S2通过对获取的数据定义数据标签结构、数据标注和数据增强，构建多模态大模型微调数据集D；S3使用数据集D对多模态大模型M进行两阶段渐进式增量微调得到多模态大模型M2；S4采用微调后的多模态大模型M2对图像进行表格内容识别或表格拆分。本发明解决了现有的技术缺乏对图像布局的语义理解，导致泛化性较低，特别是在处理三线表等特殊格式时，识别能力较差的问题。

技术关键词

拆分方法表格多模态标签结构图像编码器 Windows系统可读存储介质缩略图多层感知机格式视觉特征提取合并单元格图像数据处理两阶段多任务图像块计算机

系统为您推荐了相关专利信息

一种基于3D可视化线上多元云展厅系统

展厅系统工作台模块主题渲染单元贝塞尔曲线插值

一种基于AI的医疗信息分类方法及系统

信息分类方法数据轮廓特征人工神经网络信息分类系统

基于多模态和图神经网络的多标签慢性病风险预测装置

风险预测装置风险预测模型融合特征多模态特征多标签

一种鼻肠管置管资质认证与审查系统

虚拟现实培训人工智能辅助多模态生物识别生物识别模块分析单元

一种路面裂缝检测方法、装置和电子设备

路面裂缝检测方法全局视觉特征掩码矩阵多模态语义

一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质

站点导航

APP 下载