摘要
本发明公开了一种电缆试验报告的结构化数据提取方法、装置、终端设备和存储介质,属于报告数据提取技术领域,所述方法为:通过预设的文档提取模型分析电缆试验报告中各段落的语义特征,将电缆试验报告内的文档自动划分为不同的待处理区域;对每个待处理区域,利用正则表达式提取标识符及其内容值,并得出对应的字段;将每个待处理区域提取的字段进行融合,生成区域数据,从而再整合为完整的结构化数据。本发明通过以语义为核心进行划分区域,避免因格式变化导致的提取失效;通过正则表达式确保不同表述方式下的标识符均能被准确提取,提升了提取结果的完整性与准确性,解决现有技术因缺乏语义理解能力,导致数据提取准确性较低的问题。
技术关键词
语义特征
标识符
电缆
文本
表头
多头注意力机制
表格
数据提取技术
树状结构
数值
终端设备
字段
模块
报告
处理器
系统为您推荐了相关专利信息
文本特征向量
数据处理系统
在线
数据特征提取
特征值
表面缺陷图像
手机屏幕
图像生成模型
图像生成方法
模型预测值
身份验证系统
区块链生态系统
密钥管理
身份验证模块
身份认证数据