摘要
本发明公开了一种面向数字油藏的多级特征实体抽取方法和系统,涉及自然语言处理领域,用以高效、准确地对油藏文本进行实体抽取。本发明先对获取的部分油藏文本进行不同类型的标注,用prompt模板将标注文本转换为输入样本,并对应得到指示实体位置的真实标签;每种类型下利用成对的训练样本对实体抽取模型进行微调训练,实体抽取模型对训练样本进行多级特征提取,输出指示实体位置的预测标签;每一轮微调训练后对无标注油藏文本进行预测,人工修正错误的预测标签,用以扩充训练样本,使用所有训练样本对实体抽取模型进行训练;以最终训练的实体抽取模型对待预测油藏文本进行预测并解码。本发明的模型训练效率高、预测准确性高。
技术关键词
实体抽取方法
多级特征
文本
多层感知机
标签
BERT模型
数据采集模块
上下文特征
模型训练模块
扩充模块
扩充训练样本
抽取系统
语句
模板
自然语言
标记
纠错