摘要
本发明公开了一种核电体系文件版面识别与结构化信息提取方法及系统,包括:收集第一对象数据,对所述第一对象数据进行分类。针对分类结果进行第一预处理,对预处理结果进行版面解析与数据还原。根据还原后的数据进行文本向量化和语义分析,得到结构化输出。本发明提供的核电体系文件版面识别与结构化信息提取方法及系统提高文件分类的准确率与效率,同时显著降低人工校正需求。增强扫描文件的处理能力,在复杂版面处理中的稳定性也得到明显增强。实现文件层次结构的自动还原,大幅减少人工干预时间。做到了表格内容的高效识别与还原、高效文本语义提取与聚类,生成高质量的结构化输出。
技术关键词
结构化信息提取方法
文件层次结构
文本
OCR文字识别
分类方式
数据
信息提取系统
文档对象模型
编辑
内容分类
表格
树状结构
语义向量
元素
处理器
计算机设备
输出模块
分析模块
系统为您推荐了相关专利信息
地址识别系统
语义识别技术
报告
生成订单
识别模块
语音识别模型
语音识别界面
信息显示装置
信息显示方法
关键词
摔倒识别方法
姿态检测模型
大语言模型
云端
数据