摘要
本发明属于表格识别技术领域,一种基于多模态大模型的表格识别方法、系统、介质及设备,包括如下步骤:提取表格的单元格坐标矩阵,生成坐标特征图;建立多模态大模型,结合表格图像和坐标特征图进行图像编码特征拼接,得到图像特征向量;根据多模态大模型,结合单元格坐标矩阵与设定的提示词进行文本编码特征拼接,得到文本特征向量;将文本特征向量和图像特征向量进行融合,生成统一的语义向量;根据统一的语义向量,生成解码序列,得到表格的HTML文本内容。本申请的表格识别方法通过设定不同的token分词和对应的识别技术,提高了单元格的识别准确性。
技术关键词
表格识别方法
文本特征向量
图像特征向量
语义向量
分词
多模态
神经网络模型
标签
坐标
生成解码
编码特征
图像编码
表格识别技术
矩阵
空间布局信息
序列
系统为您推荐了相关专利信息
飞行汽车
注意力机制
图像接收模块
图像特征向量
算法
数据
编码向量
检测模型训练方法
训练流量检测模型
流量检测方法
网址识别方法
中文文本
列表
互联网安全技术
中文分词