摘要
本发明提供一种基于历史对话文本的目标说话人提取方法、装置、介质及产品,该方法包括:通过语音编码器处理混合语音信号,得到频谱特征嵌入;其中,混合语音信号包括目标说话人的语音信号、干扰说话人的语音信号、噪声信号;通过文本编码器处理文本提示信息,得到文本特征嵌入;文本提示信息与目标说话人的语音信号对应的文本内容关联;通过融合层融合频谱特征嵌入和文本特征嵌入,得到融合特征;通过掩码估计器处理融合特征,得到融合特征对应的目标掩码;根据目标掩码和混合语音信号提取出目标说话人的语音信号。本发明可以提高目标说话人的识别效果,且无需预先注册语音,实施方便。
技术关键词
频谱特征
融合特征
语音编码器
语音信号提取
文本编码器
回声
路径特征
深度学习训练
噪声
预训练模型
计算机装置
计算机程序产品
混合方法
处理器
矩阵
模块
系统为您推荐了相关专利信息
健康状态识别方法
水闸结构
焦点损失函数
应变传感器
损伤特征
图像分割方法
双编码器
图像分割网络
融合特征
注意力机制