摘要
本发明提出一种面向煤炭行业科技文献的知识分级提取方法,涉及自然语言处理技术领域,将PDF格式的煤炭行业科技文献进行纯文本MD格式转换后进行行首的非文本标识符删除,得到目标煤炭行业文档;定义各级别标题的语言标识符以及级别标识符组建的标识符规则库;训练出标题分级模型;标题分级模型识别出目标煤炭行业文档中的多个目标级别标题及各自对应的正文;多个目标级别标题通过标识符规则库进行标识符添加并结合正文,生成MD文本文件;正则化匹配标识符在MD文本文件进行定向知识分级提取,得到提取文本。由此,通过PDF文档处理、标题分级模型、面向标题的标识符规则库,提高面向煤炭行业科技文献的知识分级提取的准确率和效率。
技术关键词
标识符
决策树分类算法
预训练语言模型
文本
分级提取方法
光学字符识别方法
化匹配方法
语义特征
科技
格式
删除方法
符号
脚本
程序
数据
计算机
处理器
搜索模块
定义
系统为您推荐了相关专利信息
异常状态
文本
故障诊断模型
电力设备
大语言模型
解码器架构
预警方法
多层次
编码器
股票历史数据