一种面向数字油藏的多级特征实体抽取方法和系统

正文

推荐专利

申请号：CN202410954133

申请日期：2024-07-17

公开号：CN118504572B

公开日期：2024-10-18

类型：发明专利

摘要

本发明公开了一种面向数字油藏的多级特征实体抽取方法和系统，涉及自然语言处理领域，用以高效、准确地对油藏文本进行实体抽取。本发明先对获取的部分油藏文本进行不同类型的标注，用prompt模板将标注文本转换为输入样本，并对应得到指示实体位置的真实标签；每种类型下利用成对的训练样本对实体抽取模型进行微调训练，实体抽取模型对训练样本进行多级特征提取，输出指示实体位置的预测标签；每一轮微调训练后对无标注油藏文本进行预测，人工修正错误的预测标签，用以扩充训练样本，使用所有训练样本对实体抽取模型进行训练；以最终训练的实体抽取模型对待预测油藏文本进行预测并解码。本发明的模型训练效率高、预测准确性高。

技术关键词

实体抽取方法多级特征文本多层感知机标签 BERT模型数据采集模块上下文特征模型训练模块扩充模块扩充训练样本抽取系统语句模板自然语言标记纠错

一种面向数字油藏的多级特征实体抽取方法和系统

站点导航

APP 下载