一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质

AITNT
正文
推荐专利
一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质
申请号:CN202510219479
申请日期:2025-02-26
公开号:CN120148056A
公开日期:2025-06-13
类型:发明专利
摘要
本发明属于图像数据处理的技术领域,更具体地,涉及一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质。所述方法包括S1构建多模态大模型M,以对图像中的表格内容进行识别与拆分;S2通过对获取的数据定义数据标签结构、数据标注和数据增强,构建多模态大模型微调数据集D;S3使用数据集D对多模态大模型M进行两阶段渐进式增量微调得到多模态大模型M2;S4采用微调后的多模态大模型M2对图像进行表格内容识别或表格拆分。本发明解决了现有的技术缺乏对图像布局的语义理解,导致泛化性较低,特别是在处理三线表等特殊格式时,识别能力较差的问题。
技术关键词
拆分方法 表格 多模态 标签结构 图像编码器 Windows系统 可读存储介质 缩略图 多层感知机 格式 视觉特征提取 合并单元格 图像数据处理 两阶段 多任务 图像块 计算机
系统为您推荐了相关专利信息
1
一种基于3D可视化线上多元云展厅系统
展厅系统 工作台模块 主题 渲染单元 贝塞尔曲线插值
2
一种基于AI的医疗信息分类方法及系统
信息分类方法 数据 轮廓特征 人工神经网络 信息分类系统
3
基于多模态和图神经网络的多标签慢性病风险预测装置
风险预测装置 风险预测模型 融合特征 多模态特征 多标签
4
一种鼻肠管置管资质认证与审查系统
虚拟现实培训 人工智能辅助 多模态生物识别 生物识别模块 分析单元
5
一种路面裂缝检测方法、装置和电子设备
路面裂缝检测方法 全局视觉特征 掩码矩阵 多模态 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号