摘要
本发明涉及地理信息抽取方法领域,公开了一种结合主动学习与自训练的半监督中文地名识别方法,其识别方法包括以下步骤:S1:获取包含地名的语料文本作为数据集,S2:使用LDA主题模型对语料数据根据文本的主题进行多样性分类,S3:基于LTP(Lowest Token Probability)不确定性查询策略的主动学习方法根据模型的预测结果选出不确定分数较高即高信息性的样本,S4:根据步骤S2与S3筛选出少量兼具多样性和高信息性的样本用于人工标注,S5:结合少量的人工标注样本和大量无标签样本,采用基于BERT模型的具有高置信度tokens选择的自训练方法不断迭代更新模型参数,得到最佳的地名识别模型。本发明使用LDA主题模型对语料数据进行多样性分类。
技术关键词
LDA主题模型
地名识别方法
主动学习方法
查询策略
文本
BERT模型
无标签样本
更新模型参数
主动学习策略
数据
LDA模型
分类器
词语
多项式