摘要
本申请提供一种录音声道分割方法、设备及存储介质。包括:获取单声道录音的待分割录音,待分割录音中包括至少两个录音对象的录音段。从待分割录音中提取频谱特征,并将频谱特征输入训练好的录音分割模型中,通过录音分割模型输出至少两个录音对象的排列信息,以及,嵌入向量数组。根据嵌入向量数组,以及,各时间块内的各排列信息,获取非静音时间块,根据非静音时间块对应的嵌入向量数组,生成距离矩阵。根据距离矩阵,以及,与录音对象的数量相关的先验信息,通过层次聚类算法确定各时间块的标注信息。根据标注信息,生成待分割录音对应的RTTM文件。根据RTTM文件生成分割声道后的录音。本申请的方法,优化了电话录音的存储和处理方式。
技术关键词
质地特征
日志模型
梅尔倒谱系数
加权特征
对象
心理声学参数
频谱特征
音频特征
心理声学模型
计算机执行指令
掩蔽阈值
层次聚类算法
听觉滤波器
分割方法
声道
编码器
通信接口
噪声数据
矩阵
短时傅里叶变换