摘要
本发明提供一种基于历史对话文本的目标说话人提取方法、装置、介质及产品,该方法包括:通过语音编码器处理混合语音信号,得到频谱特征嵌入;其中,混合语音信号包括目标说话人的语音信号、干扰说话人的语音信号、噪声信号;通过文本编码器处理文本提示信息,得到文本特征嵌入;文本提示信息与目标说话人的语音信号对应的文本内容关联;通过融合层融合频谱特征嵌入和文本特征嵌入,得到融合特征;通过掩码估计器处理融合特征,得到融合特征对应的目标掩码;根据目标掩码和混合语音信号提取出目标说话人的语音信号。本发明可以提高目标说话人的识别效果,且无需预先注册语音,实施方便。
技术关键词
频谱特征
融合特征
语音编码器
语音信号提取
文本编码器
回声
路径特征
深度学习训练
噪声
预训练模型
计算机装置
计算机程序产品
混合方法
处理器
矩阵
模块
系统为您推荐了相关专利信息
图像
融合特征
超分辨率模型
超分辨率网络
模型获取方法
图像分割模型
图像分割方法
图像嵌入
编码特征
多尺度特征
取证方法
多模态特征融合
补丁
语义特征
融合特征
风险评估报告
频谱特征
Lyapunov指数
支持向量机算法
动态仿真模型
电线杆
图像分割网络
多尺度局部特征
上采样
定位方法