摘要
本发明提供了一种目标说话人的语音识别方法、系统及相关设备,方法包括获取说话人参考音频和待识别音频;将说话人参考音频和待识别音频输入目标说话人语音识别模型,通过模型中的ECAPA‑TDNN子模型从说话人参考音频中提取得到目标说话人的音色特征;通过模型中的Wav2Vec2.0子模型从待识别音频中提取得到音频通用声学特征;将音色特征和音频通用声学特征输入模型中的TS‑Conformer编码器进行特征筛选获得目标说话人声学特征;将目标说话人声学特征输入模型中的Transformer解码器生成目标说话人的预测文本。通过本发明的技术方案,能够有效的从待识别音频中分离出目标说话人的语音并输出对应文本。
技术关键词
声学特征
说话人语音识别
语音识别方法
音频
音色特征
语音识别设备
编码器
语音识别系统
文本
解码器
子模块
注意力
多尺度
阶段
可读存储介质
训练样本集
堆叠方式
存储器
处理器
系统为您推荐了相关专利信息
语音识别方法
麦克风阵列
会议设备
音频
语音唤醒模型
信号到达检测方法
自动译码
深度神经网络结构
巴特沃斯滤波器
序列特征
电力设备
振动噪声
噪声数据
历史负荷数据
卷积神经网络模型