摘要
本发明提供了一种基于Zipformer的端到端发音评测方法,对传统基于语音识别模型进行发音评测的方法进行了深度改良和融合,采用Zipformer模型用作口语评测的基本框架,将对齐算法集成到声学模型中,以目标文本作为模型的额外输入条件,可解决端到端的预测每个音素误读的问题。本发明通过引入高效、高精度的音素级识别模型,将目标文本先验信息有效融入识别模型的解码过程中,显著提高模型在利用目标文本先验信息方面的效率,进而提升语音评测性能的优化潜力,同时设计普通话发音评分规则,实现对学生发音水平的全面评估。
技术关键词
序列
评测方法
语音识别模型
发音
错误检测
数据
特征变换技术
文本
焦点损失函数
字符
对象
元素
词典
语音学知识
编码器
传播算法
音频
信号
解码