摘要
本发明公开了一种混合语音分离方法、装置、设备及可读存储介质,应用于语音分离领域,包括将含有语音重叠的混合语音输入至说话人提取模型的编码器中,得到输出向量;将混合语音中各个说话人的注册语音输入至声纹注册模型中,得到各个说话人的声纹特征;将各个说话人的声纹特征和输出向量依次输入至说话人提取模型的说话人提取器和解码器中,得到初始分离语音;将各个说话人的声纹特征和输出向量输入至说话人日志模型中,得到各个说话人的日志;根据初始分离语音和各个说话人的日志得到混合语音中各个说话人对应的语音。本发明将声纹注册模型、说话人日志模型和说话人提取模型进行结合,相辅相成,相互促进,共同提高混合语音分离的准确性。
技术关键词
声纹特征
日志模型
语音
编码器
计算机可执行指令
输入模块
解码器
音频特征
标签
可读存储介质
存储计算机程序
特征提取模块
样本
处理器
存储器
场景
网络
系统为您推荐了相关专利信息
金融业务办理
编码特征
音视频
多模态
度评估方法
带噪语音信号
降噪模型
语音降噪方法
语音降噪装置
非线性
混合深度学习模型
光伏发电功率
天气
长短期记忆网络
数据
医疗信息交互系统
智能交互终端
多模态
混合专家系统
可穿戴传感器设备