面向煤炭行业科技文献的知识分级提取方法

正文

推荐专利

面向煤炭行业科技文献的知识分级提取方法

申请号：CN202510696052

申请日期：2025-05-28

公开号：CN120216699B

公开日期：2025-10-21

类型：发明专利

摘要

本发明提出一种面向煤炭行业科技文献的知识分级提取方法，涉及自然语言处理技术领域，将PDF格式的煤炭行业科技文献进行纯文本MD格式转换后进行行首的非文本标识符删除，得到目标煤炭行业文档；定义各级别标题的语言标识符以及级别标识符组建的标识符规则库；训练出标题分级模型；标题分级模型识别出目标煤炭行业文档中的多个目标级别标题及各自对应的正文；多个目标级别标题通过标识符规则库进行标识符添加并结合正文，生成MD文本文件；正则化匹配标识符在MD文本文件进行定向知识分级提取，得到提取文本。由此，通过PDF文档处理、标题分级模型、面向标题的标识符规则库，提高面向煤炭行业科技文献的知识分级提取的准确率和效率。

技术关键词

标识符决策树分类算法预训练语言模型文本分级提取方法光学字符识别方法化匹配方法语义特征科技格式删除方法符号脚本程序数据计算机处理器搜索模块定义

系统为您推荐了相关专利信息

电力设备的检修方案的确定方法及装置

异常状态文本故障诊断模型电力设备大语言模型

一种基于知识星图增强大语言模型的化工安全运维方法、设备、介质及产品

实体大语言模型运维方法关键词化工

机器人控制方法和装置、电子设备及存储介质

机器人控制方法指令样本图像编码标记

一种基于最短路径算法的建筑内终端线缆计算方法

计算方法电缆桥架节点短距离线缆

基于多层次编码器-解码器架构的股票市场异常预警方法

解码器架构预警方法多层次编码器股票历史数据

面向煤炭行业科技文献的知识分级提取方法

站点导航

APP 下载