摘要
本发明提供了一种基于深度神经网络的语种信息动态检测方法,涉及语音处理技术领域,该方法获取待检测的混合语种语音流并提取原始声学特征;基于注意力机制生成当前时间步的注意力向量,并结合单向时间选取和特定时间跨度的限制,动态选取当前时间步的语音特征帧序列窗;将动态窗信号与原始声学特征信号相乘,生成当前时间步检测语种信息的局部声学特征;将任意长度的局部声学特征规整为固定维度特征,输入固定维度特征至深度神经网络分类器,输出当前时间步语音特征对应的语种概率值;基于动态窗信息及语种概率值,输出混合语音流中各语音片段的起止时间及对应语种标签,并确定语种切换的时间点,特别适用于双语混合语音流中的语种切换识别。
技术关键词
动态检测方法
深度神经网络
声学特征
语音特征
规整方法
注意力机制
序列
分类器
前馈神经网络
语种识别
参数
矩阵
信号
标签
层级
端点