摘要
本发明提供一种说话人提取方法及系统,涉及语音识别技术领域,方法包括:获取文本信息和待识别混合音频,所述待识别混合音频中包括目标说话人的目标语音;将所述文本信息和所述待识别音频输入至语音识别模型,确定所述目标说话人,所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者。本发明通过获取文本信息和待识别混合音频,并将所述文本信息和所述待识别音频输入至语音识别模型,能够同时关注声音的频谱特征和文本信息,又因为所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者,能够利用混合音频场景下的视觉特性。
技术关键词
语音识别模型
融合特征
音频
递归神经网络
语音编码器
语音适配器
文本编码器
神经网络模型
语音解码器
计算机可读指令
矩阵
交叉注意力机制
语音识别功能
语音识别技术
预训练模型
系统为您推荐了相关专利信息
可见光图像
山区
融合特征
高精度定位模块
特征提取网络
无人机验电
位置姿态数据
电场传感器
多旋翼无人机飞行
天气环境数据
微多普勒
干扰抑制方法
递归神经网络
成像
注意力
内部检测方法
机器人壳体
风机
注意力机制
内部缺陷检测