摘要
本申请公开了一种目标人脸的语音分离方法、设备及装置,涉及语音提取技术领域。方法包括:获取目标说话人的待分离语音视频,并提取待分离语音视频中的混合音频信息及目标说话人的人脸信息与嘴唇信息;通过预训练的多模态编码器中的视觉线索融合模块,对人脸信息与嘴唇信息进行处理,以获得视觉线索;基于视觉线索,通过多模态编码器中的语音分离模块,对混合音频信息进行语音信号分离,以获得目标语音。本申请通过上述方法实现了在视觉线索部分缺失、质量不佳的情况下,依然能够鲁棒、准确地提取目标说话人的语音。
技术关键词
人脸
语音分离器
线索
视觉
音频
语音解码器
语音编码器
样本
多模态
语音提取技术
时序
模块
信号
视频流
融合器
系统为您推荐了相关专利信息
手术用品管理方法
人脸特征信息
身份
图像处理算法
柜门
强度检测方法
视频
音频
非暂态计算机可读存储介质
训练样本集
入侵检测方法
双目深度估计
综合评估模型
电力线轮廓
数字图像处理技术