摘要
本发明公开基于语义感知的开放场景英语语音评估方法及系统,涉及语音评估技术领域,对音频数据进行特征提取,得到帧级声学特征;对音频数据进行识别得到转录文本,将转录文本和音频数据对应的主题文本输入语言模型进行处理,得到转录文本的单词级表示和主题文本的单词级表示,进而得到相应的语句级文本表示,计算转录文本和主题文本的语句级文本表示的相似度得到相关性分数;将声学特征和转录文本的单词级表示输入多层Transformer解码器进行特征融合,得到单词级发音表示,进而得到语义感知分数;基于相关性分数和语义感知分数,得到评测结果。通过深度学习模型,提取声学特征与语言特征,进行语义感知融合,实现对开放场景英语语音的精准评估。
技术关键词
语音评估方法
文本
特征提取模块
声学特征
语义
语句
英语
主题
音频
场景
语音评估系统
端点检测技术
发音
解码器
数据
掩码技术
深度学习模型
预训练模型
分支