摘要
本发明公开了一种基于双模型动态触发的语音流切分方法,包括如下步骤:步骤1:构建多路语音流的数据流缓冲管理机制,为每个语音流建立独立处理通道,将积累到阈值时长的语音数据组成待处理语音集合;步骤2:通过快速切分模型筛选分析并处理待处理语音集合,选出符合条件的语音片段输出到高精度切分模型;步骤3:根据快速切分模型的筛选结果,将不符合条件数据与数据流缓冲中的数据进行拼接,调整语音片段对应缓冲区的阈值时长;步骤4:使用高精度切分模型处理经过快速切分模型筛选的语音片段;步骤5:根据处理结果将切分后的音频片段输出到语音识别等其他系统中,将剩余数据与数据流缓冲中的数据进行拼接,并更新对应缓冲区的阈值时长。
技术关键词
音频
频谱特征
数据
滤波器
语音识别系统
缓冲结构
滑动窗口
梅尔频率倒谱系数
一维卷积神经网络
动态
缓冲区结构
二分类模型
网络结构
离散余弦变换
采样点
列表
序列
三角形