摘要
提供识别人声的持续语音段的方法、识别人声的持续语音段的设备、非暂时存储介质、计算机程序产品。该方法包括通过变分模态分解和伽玛通频率倒谱系数滤波器从时间上连续的多个待识别音频帧中提取关于人声的仿真人耳基底膜感应信息的多个待识别特征;用提取的多个待识别特征输入语音类别分类神经网络,以便从多个待识别音频帧中确定多个待识别音频帧中具有人声的多个后验概率;根据所述多个待识别音频帧中确定的多个具有人声的后验概率,识别出人声的一个或多个持续语音段。如此,能够提升复杂噪声背景情况下儿童人声的持续语音段的检测能力,确保例如教育场景下语音识别、语音评测系统的识别性能和评测性能的稳定。
技术关键词
分类神经网络
人声
语音类别
音频
识别特征
过渡段
滤波器
样本
后验概率
计算机程序产品
关系
识别装置
频率
教育场景
处理器
评测系统
数据
指令
标签