摘要
本发明涉及自然语言处理领域,公开了一种基于小型中文预训练模型的中文多音字消歧方法。其特征在于,采用了小型中文预训练模型,解决了大规模预训练模型在进行多音字消歧任务时,难以在低资源运算平台部署的问题。然后,对文本数据进行中文分词和词性标注,并将其与预训练模型输出的特征序列结合,提高了模型对上下文语义的理解,更好地对多音字进行分类。最后,使用了由全连接层组成的神经网络分类器,实现对特征序列的分类,准确地识别多音字的发音,提高了多音字消歧的准确率。
技术关键词
预训练模型
消歧方法
嵌入特征
语义特征
中文分词
字符
汉字
序列
词语
发音
神经网络分类器
文本
标签继承
语句
训练分类器
数据
自然语言