摘要
本申请涉及表格识别技术领域,尤其涉及一种基于多模型协同的表格检测结构化输出方法、装置设备和存储介质,包括:响应对于目标表格的检测指令,获取包含目标表格的表格图片;使用预先训练的深度学习表格检测模型对图像进行目标检测,根据检测的结果得到表格的位置坐标;再使用预先训练的深度学习文字检测模型对图像进行目标检测,根据检测结果得到文字的位置坐标和文字类别;根据文字类别调用不同的文字识别模型进行文字内容识别,将上述的表格位置坐标,文字位置坐标、文字内容进行处理,输出表格文字内容和表格坐标,将输出送入大语言模型,得到最后的文本键值对匹配结果。本发明有助于减少人工干预和误识别,提升自动化处理的效率和准确度。
技术关键词
结构化输出方法
多模型协同
坐标
大语言模型
表格识别技术
键值
文本
图像
矩形
图片
印刷体
处理器
元素
识别模块
指令
存储器
像素
电子设备
系统为您推荐了相关专利信息
状态实时检测
数据
电表箱
时间序列分解方法
符号
无人机巡检路径
电力巡检无人机
分段
路径特征
构建无人机
数据处理方法
日志
分析单元
场景分类
计算机程序产品
物体检测装置
周边监视装置
校正算法
施工机械
坐标系
全景环视图像
语义特征
交叉注意力机制
坐标系
解码器