一种多说话人的语音分离识别方法、装置、终端设备及存储介质

正文

推荐专利

申请号：CN202510275183

申请日期：2025-03-10

公开号：CN120048282A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了一种多说话人的语音分离识别方法、装置、终端设备及存储介质，上述方法包括：获取待分离识别的多说话人语音信号，输入至预设语音分离识别模型提取出语音特征，并根据语音特征将多说话人语音信号进行分离，得到若干单人语音信号；然后将单人语音信号以及语音特征输入至预设语音分离识别模型中的语音文本识别模型，识别出单人语音信号中，每一语音帧所对应的文本字符的概率分布，并根据WFST算法对进行加权计算，得到每一单人语音信号的文本信息；最后根据单人语音信号以及对应的文本信息，得到多说话人语音信号的分离识别结果。通过实施本发明，可以对含有多说话人的混合语音信号，进行分离和识别。

技术关键词

文本识别模型单人联合损失函数样本语音特征提取识别方法语音信号提取字符标签识别模型训练信号获取模块基座模型预训练数据获取单元韵律特征识别装置

系统为您推荐了相关专利信息

一种基于多模态的通信网络状态聚合系统

业务数据类型网管协议通信网络分层子模块

一种气味源搜索的方法、装置、存储介质、设备

搜索机器人矫正邻域样本处理器

安全驾驶方法、装置、交通载具及电子设备

专用分类面部特征报警设备图像车机设备

一种深度强化学习的刨花板目标检测系统及检测方法

深度强化学习线性模块刨花板缺陷类别训练分类模型

一种基于视觉检测的道路划线机器人控制方法及系统

道路划线机器人报告数据采集模块控制系统特征数据提取

一种多说话人的语音分离识别方法、装置、终端设备及存储介质

站点导航

APP 下载