目标说话人的语音识别方法、系统及相关设备

正文

推荐专利

申请号：CN202510711212

申请日期：2025-05-29

公开号：CN120727005A

公开日期：2025-09-30

类型：发明专利

摘要

本发明提供了一种目标说话人的语音识别方法、系统及相关设备，方法包括获取说话人参考音频和待识别音频；将说话人参考音频和待识别音频输入目标说话人语音识别模型，通过模型中的ECAPA‑TDNN子模型从说话人参考音频中提取得到目标说话人的音色特征；通过模型中的Wav2Vec2.0子模型从待识别音频中提取得到音频通用声学特征；将音色特征和音频通用声学特征输入模型中的TS‑Conformer编码器进行特征筛选获得目标说话人声学特征；将目标说话人声学特征输入模型中的Transformer解码器生成目标说话人的预测文本。通过本发明的技术方案，能够有效的从待识别音频中分离出目标说话人的语音并输出对应文本。

技术关键词

声学特征说话人语音识别语音识别方法音频音色特征语音识别设备编码器语音识别系统文本解码器子模块注意力多尺度阶段可读存储介质训练样本集堆叠方式存储器处理器

系统为您推荐了相关专利信息

基于数据码头部识别的音乐信息分类方法及系统

头部特征音乐语义特征多维特征向量节点

一种用于麦克风阵列会议设备的语音识别方法及装置

语音识别方法麦克风阵列会议设备音频语音唤醒模型

特征处理方法、装置、可读介质、电子设备及程序产品

嵌入特征多模态序列存储装置电子设备

一种基于深度学习的Morse信号到达检测方法

信号到达检测方法自动译码深度神经网络结构巴特沃斯滤波器序列特征

一种电力设备的振动噪声评估方法、装置、介质及设备

电力设备振动噪声噪声数据历史负荷数据卷积神经网络模型

目标说话人的语音识别方法、系统及相关设备

站点导航

APP 下载