摘要
本发明属于图像数据处理的技术领域,更具体地,涉及一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质。所述方法包括S1构建多模态大模型M,以对图像中的表格内容进行识别与拆分;S2通过对获取的数据定义数据标签结构、数据标注和数据增强,构建多模态大模型微调数据集D;S3使用数据集D对多模态大模型M进行两阶段渐进式增量微调得到多模态大模型M2;S4采用微调后的多模态大模型M2对图像进行表格内容识别或表格拆分。本发明解决了现有的技术缺乏对图像布局的语义理解,导致泛化性较低,特别是在处理三线表等特殊格式时,识别能力较差的问题。
技术关键词
拆分方法
表格
多模态
标签结构
图像编码器
Windows系统
可读存储介质
缩略图
多层感知机
格式
视觉特征提取
合并单元格
图像数据处理
两阶段
多任务
图像块
计算机
系统为您推荐了相关专利信息
展厅系统
工作台模块
主题
渲染单元
贝塞尔曲线插值
信息分类方法
数据
轮廓特征
人工神经网络
信息分类系统
风险预测装置
风险预测模型
融合特征
多模态特征
多标签
虚拟现实培训
人工智能辅助
多模态生物识别
生物识别模块
分析单元
路面裂缝检测方法
全局视觉特征
掩码矩阵
多模态
语义