面向煤炭行业科技文献的知识分级提取方法

AITNT
正文
推荐专利
面向煤炭行业科技文献的知识分级提取方法
申请号:CN202510696052
申请日期:2025-05-28
公开号:CN120216699B
公开日期:2025-10-21
类型:发明专利
摘要
本发明提出一种面向煤炭行业科技文献的知识分级提取方法,涉及自然语言处理技术领域,将PDF格式的煤炭行业科技文献进行纯文本MD格式转换后进行行首的非文本标识符删除,得到目标煤炭行业文档;定义各级别标题的语言标识符以及级别标识符组建的标识符规则库;训练出标题分级模型;标题分级模型识别出目标煤炭行业文档中的多个目标级别标题及各自对应的正文;多个目标级别标题通过标识符规则库进行标识符添加并结合正文,生成MD文本文件;正则化匹配标识符在MD文本文件进行定向知识分级提取,得到提取文本。由此,通过PDF文档处理、标题分级模型、面向标题的标识符规则库,提高面向煤炭行业科技文献的知识分级提取的准确率和效率。
技术关键词
标识符 决策树分类算法 预训练语言模型 文本 分级提取方法 光学字符识别方法 化匹配方法 语义特征 科技 格式 删除方法 符号 脚本 程序 数据 计算机 处理器 搜索模块 定义
系统为您推荐了相关专利信息
1
电力设备的检修方案的确定方法及装置
异常状态 文本 故障诊断模型 电力设备 大语言模型
2
一种基于知识星图增强大语言模型的化工安全运维方法、设备、介质及产品
实体 大语言模型 运维方法 关键词 化工
3
机器人控制方法和装置、电子设备及存储介质
机器人控制方法 指令 样本 图像编码 标记
4
一种基于最短路径算法的建筑内终端线缆计算方法
计算方法 电缆桥架 节点 短距离 线缆
5
基于多层次编码器-解码器架构的股票市场异常预警方法
解码器架构 预警方法 多层次 编码器 股票历史数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号