一种结合主动学习与自训练的半监督中文地名识别方法

正文

推荐专利

申请号：CN202410900957

申请日期：2024-07-05

公开号：CN119204009A

公开日期：2024-12-27

类型：发明专利

摘要

本发明涉及地理信息抽取方法领域，公开了一种结合主动学习与自训练的半监督中文地名识别方法，其识别方法包括以下步骤：S1：获取包含地名的语料文本作为数据集，S2：使用LDA主题模型对语料数据根据文本的主题进行多样性分类，S3：基于LTP(Lowest Token Probability)不确定性查询策略的主动学习方法根据模型的预测结果选出不确定分数较高即高信息性的样本，S4：根据步骤S2与S3筛选出少量兼具多样性和高信息性的样本用于人工标注，S5：结合少量的人工标注样本和大量无标签样本，采用基于BERT模型的具有高置信度tokens选择的自训练方法不断迭代更新模型参数，得到最佳的地名识别模型。本发明使用LDA主题模型对语料数据进行多样性分类。

技术关键词

LDA主题模型地名识别方法主动学习方法查询策略文本 BERT模型无标签样本更新模型参数主动学习策略数据 LDA模型分类器词语多项式

一种结合主动学习与自训练的半监督中文地名识别方法

站点导航

APP 下载