目标说话人的语音识别方法、系统及相关设备

AITNT
正文
推荐专利
目标说话人的语音识别方法、系统及相关设备
申请号:CN202510711212
申请日期:2025-05-29
公开号:CN120727005A
公开日期:2025-09-30
类型:发明专利
摘要
本发明提供了一种目标说话人的语音识别方法、系统及相关设备,方法包括获取说话人参考音频和待识别音频;将说话人参考音频和待识别音频输入目标说话人语音识别模型,通过模型中的ECAPA‑TDNN子模型从说话人参考音频中提取得到目标说话人的音色特征;通过模型中的Wav2Vec2.0子模型从待识别音频中提取得到音频通用声学特征;将音色特征和音频通用声学特征输入模型中的TS‑Conformer编码器进行特征筛选获得目标说话人声学特征;将目标说话人声学特征输入模型中的Transformer解码器生成目标说话人的预测文本。通过本发明的技术方案,能够有效的从待识别音频中分离出目标说话人的语音并输出对应文本。
技术关键词
声学特征 说话人语音识别 语音识别方法 音频 音色特征 语音识别设备 编码器 语音识别系统 文本 解码器 子模块 注意力 多尺度 阶段 可读存储介质 训练样本集 堆叠方式 存储器 处理器
系统为您推荐了相关专利信息
1
基于数据码头部识别的音乐信息分类方法及系统
头部特征 音乐 语义特征 多维特征向量 节点
2
一种用于麦克风阵列会议设备的语音识别方法及装置
语音识别方法 麦克风阵列 会议设备 音频 语音唤醒模型
3
特征处理方法、装置、可读介质、电子设备及程序产品
嵌入特征 多模态 序列 存储装置 电子设备
4
一种基于深度学习的Morse信号到达检测方法
信号到达检测方法 自动译码 深度神经网络结构 巴特沃斯滤波器 序列特征
5
一种电力设备的振动噪声评估方法、装置、介质及设备
电力设备 振动噪声 噪声数据 历史负荷数据 卷积神经网络模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号