摘要
本发明公开的一种流式音频语种识别方法及系统,属于语种识别技术领域。本发明实现方法为:1、利用语音活性检测方法对原始音频数据进行预处理,得到语种识别训练数据;2、对语种识别训练数据进行特征提取;3、构建编码器解码器模型并进行语种识别特征训练;4、将语种识别测试数据输入至已训练的编码器解码器模型获得语种识别音频数据,将语种识别音频数据以数据累积的方式形成音频数据流;5、利用语音活性检测方法对音频数据流进行活性检测;6、对通过活性检测的音频数据进行窗级别的语种判别;具体的,通过当前窗与上一窗的音频数据对比,进而获得当前状态的时间戳和语种结果;与现有技术相比,本发明在流式场景中实现多语种混合语音识别。
技术关键词
语种识别方法
编码器解码器
语音活性检测方法
音频
编码器参数
数据
语种识别系统
语种识别技术
混合语音识别
傅里叶变换方法
频域特征
模块
时域特征
滤波器
滑动窗口
系统为您推荐了相关专利信息
英语口语学习装置
智能语音
移动网络安全认证
移动通信模块
蓝牙模块
多模态检测系统
热轧板
投票算法
落料
深度学习模型