摘要
本发明涉及自然语言处理领域,公开了一种节约算力的小参数量中文多音字消歧方法。其特征在于,采用了小型中文预训练模型,解决了大规模预训练模型在进行多音字消歧任务时,难以在低资源运算平台部署,占用大量算力资源的问题。然后,将文本数据输入该预训练模型进行训练,得到相应的语义特征序列,同时加入中文分词和词性标注特征序列,并且使用双向LSTM和全连接层组成的分类器对其进行分类,进一步提高多音字消歧的准确率,验证分词和词性标注特征对于多音字消歧的有效性以及双向LSTM对于多音字分类的有效性。同时通过对比实验,验证本方法在多音字消歧方面的有效性和相比于使用大规模预训练模型的优越性。
技术关键词
消歧方法
语义特征
嵌入特征
预训练模型
中文分词
汉字
字符
序列
词语
语句
分类器
数据
标签继承
有效性
发音
维基百科
中文文本
系统为您推荐了相关专利信息
图像降噪方法
低剂量CT图像
多通道
样本
Wasserstein距离度量
医学图像标注方法
标注医学图像
分支
样本
预训练模型
智能检测方法
抑郁
多模态
交互式视频
说话人识别技术
特征提取方法
全局平均池化
空间注意力模型
局部特征信息
图像