摘要
本发明公开了一种多表格电力技术标准PDF解析方法及系统,本发明方法将电力技术标准PDF文件转换为表格图像;针对表格图像进行表格以及角点定位检测得到表格边框;针对表格图像进行表格结构解析得到单元格矩形框;针对表格图像识别文本矩形框以及文字内容;将单元格矩形框和文本矩形框匹配以确定单元格的文字内容;对单元格矩形框进行表头单元格分类为表头单元格和普通单元格;结合识别得到的表头单元格和普通单元格以及文字内容进行表格结构重构;基于重构后的表格内容利用大语言模型生成连贯通顺的文本语料。本发明旨在针对多表格电力技术标准PDF文档实现表格中信息的有效提取和利用,以提高变压器缺陷语料库构建的效率和准确度。
技术关键词
解析方法
表头
合并单元格
注意力机制
文本
表格图像识别
大语言模型
电力
神经网络模型
重构
变压器缺陷
顶点
均值滤波器
编码器
指令
微处理器
可读存储介质
系统为您推荐了相关专利信息
无人车编队
大语言模型
控制策略
自动控制方法
自动控制系统
故障特征
故障诊断方法
蚁群算法
大语言模型
蚂蚁
超宽带室内定位方法
标签
室内定位模型
基站
节点特征
双回路
数据传输单元
数据采集单元
监测方法
数据分析模型