一种基于多模态大模型的表格识别方法、系统、介质及设备

AITNT
正文
推荐专利
一种基于多模态大模型的表格识别方法、系统、介质及设备
申请号:CN202511071350
申请日期:2025-07-31
公开号:CN120976949A
公开日期:2025-11-18
类型:发明专利
摘要
本发明属于表格识别技术领域,一种基于多模态大模型的表格识别方法、系统、介质及设备,包括如下步骤:提取表格的单元格坐标矩阵,生成坐标特征图;建立多模态大模型,结合表格图像和坐标特征图进行图像编码特征拼接,得到图像特征向量;根据多模态大模型,结合单元格坐标矩阵与设定的提示词进行文本编码特征拼接,得到文本特征向量;将文本特征向量和图像特征向量进行融合,生成统一的语义向量;根据统一的语义向量,生成解码序列,得到表格的HTML文本内容。本申请的表格识别方法通过设定不同的token分词和对应的识别技术,提高了单元格的识别准确性。
技术关键词
表格识别方法 文本特征向量 图像特征向量 语义向量 分词 多模态 神经网络模型 标签 坐标 生成解码 编码特征 图像编码 表格识别技术 矩阵 空间布局信息 序列
系统为您推荐了相关专利信息
1
一种多模态作业智能批改反馈方法及系统
作业智能 反馈方法 知识点 模态特征 序列
2
用于信息处理的方法、装置、设备和介质
术语 信息处理模型 信息项 前缀树结构 关键词
3
一种鲁棒的飞行汽车空地目标匹配方法及系统
飞行汽车 注意力机制 图像接收模块 图像特征向量 算法
4
流量检测模型训练方法、流量检测方法及装置
数据 编码向量 检测模型训练方法 训练流量检测模型 流量检测方法
5
基于中文文本多分类的涉诈网址识别方法
网址识别方法 中文文本 列表 互联网安全技术 中文分词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号