摘要
本申请公开了一种基于深度学习的普通话发音评估系统,涉及语音评分的技术领域,其包括数据输入端口:用于获取抄本、标准音高曲线以及标准口型视频,将用户朗读时的面部口型运动和声音拍摄为视频,从视频中提取音频;数据处理器:用于对视频以及音频进行处理;音调评估器:用于音频进行评估得到音调评分;口型评估器:用于得到口型评分;发音评估器:用于得到发音评分;评分输出端:用于结合音调评分、口型评分以及发音评分,生成最终评分。本申请具有提升对普通话发音评分的准确性和自适应性的效果。
技术关键词
发音
视频特征向量
运动特征
评估系统
曲线
监督学习模型
音频
数据处理器
动态时间规整
匹配器
细化器
面部关键点
多项式
特征提取器
编码特征
网络
图像编码
检测器