摘要
本申请提供一种面向水利大模型检索增强的文档表格结构识别方法,涉及水利文档表格处理分析领域,解决了大模型检索增强技术中,若采用现有文档识别技术难以准确提取水利文档内含的大量复杂、跨页的非结构化表格信息的技术问题。该方法包括:获取水利信息的文档X,拆分为若干单页面,将每个页面划分为若干列区域和若干行区域;提取每个行区域的视觉信息向量和文本信息向量,并生成联合特征向量;通过UNet获取行区域之间的交叉行特征矩阵;基于交叉行特征矩阵,获取每个行区域的标签,并合并行区域。本申请用于水利文档表格处理过程中。
技术关键词
结构识别方法
表格
水利
全卷积神经网络
文档识别技术
页面
Softmax函数
矩阵
标签
层级
文本
网格
字符
对象
编码器
物理
视觉特征
数据
上采样
系统为您推荐了相关专利信息
信息抽取方法
构建知识图谱
网页元素
超文本标记语言
自然语言
智能问答方法
水利
识别用户意图
生成答案
语义特征
全景监控方法
实时图像传输
360度全景摄像头
数据存储服务
全覆盖
水动力学模型
优化调度系统
启发式规则
拓扑结构信息
粒子群算法