一种多说话人的语音分离识别方法、装置、终端设备及存储介质

AITNT
正文
推荐专利
一种多说话人的语音分离识别方法、装置、终端设备及存储介质
申请号:CN202510275183
申请日期:2025-03-10
公开号:CN120048282A
公开日期:2025-05-27
类型:发明专利
摘要
本发明公开了一种多说话人的语音分离识别方法、装置、终端设备及存储介质,上述方法包括:获取待分离识别的多说话人语音信号,输入至预设语音分离识别模型提取出语音特征,并根据语音特征将多说话人语音信号进行分离,得到若干单人语音信号;然后将单人语音信号以及语音特征输入至预设语音分离识别模型中的语音文本识别模型,识别出单人语音信号中,每一语音帧所对应的文本字符的概率分布,并根据WFST算法对进行加权计算,得到每一单人语音信号的文本信息;最后根据单人语音信号以及对应的文本信息,得到多说话人语音信号的分离识别结果。通过实施本发明,可以对含有多说话人的混合语音信号,进行分离和识别。
技术关键词
文本识别模型 单人 联合损失函数 样本 语音特征提取 识别方法 语音信号提取 字符 标签 识别模型训练 信号获取模块 基座 模型预训练 数据获取单元 韵律特征 识别装置
系统为您推荐了相关专利信息
1
一种基于多模态的通信网络状态聚合系统
业务数据类型 网管协议 通信网络 分层 子模块
2
一种气味源搜索的方法、装置、存储介质、设备
搜索机器人 矫正 邻域 样本 处理器
3
安全驾驶方法、装置、交通载具及电子设备
专用分类 面部特征 报警设备 图像 车机设备
4
一种深度强化学习的刨花板目标检测系统及检测方法
深度强化学习 线性模块 刨花板 缺陷类别 训练分类模型
5
一种基于视觉检测的道路划线机器人控制方法及系统
道路划线机器人 报告 数据采集模块 控制系统 特征数据提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号