摘要
本发明提供了一种基于国际音标的发音词典自动构建方法、装置、设备及介质,包括:建立以音素为隐变量的语音识别模型;使用联合随机近似方法对语音识别模型进行训练以及优化,实现自动构建发音词典。本发明能够完成输入音频特征序列即可得到其音素和文本的对应,相对于现有的技术,其利用预训练的模型能够在一种新的语言上进行任务,使用预训练的模型,能够方便地迁移到另一种新的语言上进行训练,得到该语言的发音词典,正确率高,同时便于维护,成本较低。
技术关键词
发音词典
自动构建方法
语音识别模型
音频特征
特征矢量序列
语音特征
神经网络参数
变量
词语
解码器
编码器
处理器通信
正确率
电子设备
介质
系统为您推荐了相关专利信息
情感分析方法
多头注意力机制
音频特征
编码器
多模态特征融合
语音识别模型
语音识别方法
声学特征
多任务
解码器
语音识别训练方法
训练神经网络
智能语音设备
语音识别模型
词语