摘要
本发明公开了一种多说话人的语音分离识别方法、装置、终端设备及存储介质,上述方法包括:获取待分离识别的多说话人语音信号,输入至预设语音分离识别模型提取出语音特征,并根据语音特征将多说话人语音信号进行分离,得到若干单人语音信号;然后将单人语音信号以及语音特征输入至预设语音分离识别模型中的语音文本识别模型,识别出单人语音信号中,每一语音帧所对应的文本字符的概率分布,并根据WFST算法对进行加权计算,得到每一单人语音信号的文本信息;最后根据单人语音信号以及对应的文本信息,得到多说话人语音信号的分离识别结果。通过实施本发明,可以对含有多说话人的混合语音信号,进行分离和识别。
技术关键词
文本识别模型
单人
联合损失函数
样本
语音特征提取
识别方法
语音信号提取
字符
标签
识别模型训练
信号获取模块
基座
模型预训练
数据获取单元
韵律特征
识别装置
系统为您推荐了相关专利信息
深度强化学习
线性模块
刨花板
缺陷类别
训练分类模型
道路划线机器人
报告
数据采集模块
控制系统
特征数据提取