一种流程工业文本知识提取数据集自动构建方法及系统

正文

推荐专利

申请号：CN202411439399

申请日期：2024-10-15

公开号：CN119311874A

公开日期：2025-01-14

类型：发明专利

摘要

本发明属于但不限于文本提取技术领域，尤其涉及一种流程工业文本知识提取数据集自动构建方法及系统，首先，基于分词工具和TF‑IDF算法将流程工业领域无标注文本转为大语言模型微调数据集并对大语言模型进行微调，使其具备领域特有知识；然后，基于微调后的大语言模型通过多阶段探索‑利用比调整生成带有置信度的初始知识提取样本集；最后，通过基于置信度的大规模样本集错误检测和修正方法，得到最终用于领域知识提取模型训练的样本数据集。本发明通过低成本、高效率的工业文本知识提取样本集构建及应用方法，最大程度提升资源的投入产出比，提升工业安全知识提取算法的构建和应用的效率。

技术关键词

自动构建方法大语言模型实体置信度阈值信息数据处理终端样本模板文本提取技术中文分词工具构建系统格式工业现场预定义关系人工方式序列

一种流程工业文本知识提取数据集自动构建方法及系统

站点导航

APP 下载