一种基于小型中文预训练模型的中文多音字消歧方法

正文

推荐专利

申请号：CN202411481436

申请日期：2024-10-23

公开号：CN119150857A

公开日期：2024-12-17

类型：发明专利

摘要

本发明涉及自然语言处理领域，公开了一种基于小型中文预训练模型的中文多音字消歧方法。其特征在于，采用了小型中文预训练模型，解决了大规模预训练模型在进行多音字消歧任务时，难以在低资源运算平台部署的问题。然后，对文本数据进行中文分词和词性标注，并将其与预训练模型输出的特征序列结合，提高了模型对上下文语义的理解，更好地对多音字进行分类。最后，使用了由全连接层组成的神经网络分类器，实现对特征序列的分类，准确地识别多音字的发音，提高了多音字消歧的准确率。

技术关键词

预训练模型消歧方法嵌入特征语义特征中文分词字符汉字序列词语发音神经网络分类器文本标签继承语句训练分类器数据自然语言

一种基于小型中文预训练模型的中文多音字消歧方法

站点导航

APP 下载