摘要
本发明属于但不限于文本提取技术领域,尤其涉及一种流程工业文本知识提取数据集自动构建方法及系统,首先,基于分词工具和TF‑IDF算法将流程工业领域无标注文本转为大语言模型微调数据集并对大语言模型进行微调,使其具备领域特有知识;然后,基于微调后的大语言模型通过多阶段探索‑利用比调整生成带有置信度的初始知识提取样本集;最后,通过基于置信度的大规模样本集错误检测和修正方法,得到最终用于领域知识提取模型训练的样本数据集。本发明通过低成本、高效率的工业文本知识提取样本集构建及应用方法,最大程度提升资源的投入产出比,提升工业安全知识提取算法的构建和应用的效率。
技术关键词
自动构建方法
大语言模型
实体
置信度阈值
信息数据处理终端
样本
模板
文本提取技术
中文分词工具
构建系统
格式
工业现场
预定义关系
人工方式
序列