摘要
本申请提供单通道多说话人因子提取模型训练方法、提取方法、说话人分离方法及相关装置,训练方法包括:采用各个说话人分别在多人交替说话场景中发出的第一单通道语音片段数据的表述内容文本特征和第二单通道语音片段数据,针对变分自编码器中的编码器和解码器执行基于表述内容文本蒸馏的模型训练步骤,以将编码器训练为用于提取单通道语音片段数据对应的说话人语音特征的单通道多说话人因子提取模型。本申请能够在模型训练过程中蒸馏说话人单通道语音对应的表述内容文本,能够有效降低表述内容文本对说话人语音特征提取有效性的冗余信息干扰,能够提高采用该模型提取的说话人语音特征的准确性及后续用于单通道多说话人分离的应用有效性和准确性。
技术关键词
说话人语音特征
模型训练方法
聚类
因子
数据
场景
编码器训练
解码器执行
文本
语音特征提取
语音识别系统
音频
分割算法
蒸馏
噪声
模型训练装置
模型训练模块
系统为您推荐了相关专利信息
可视化子系统
人机协同
微型计算机
无线通信技术设备
图像
智能调速方法
搅拌机
参数
支持向量机算法
动态调整机制
虚拟储能
资源调度模型
储能系统出力
区域配电网
资源优化调度方法