摘要
本申请公开了一种语音分离方法、装置、存储介质及设备,该方法包括:首先获取待分离的混合语音和目标视频;并提取混合语音的声学特征;然后将混合语音的声学特征和目标视频包含的目标用户唇形的图像输入多模对齐模型,得到目标用户的唇形特征;接着将混合语音的声学特征和目标用户的唇形特征输入多模VAD模型,得到混合语音的分离概率;再根据混合语音的分离概率,结合波束形成算法,计算混合语音对应的多模波束特征,进而可以将混合语音的声学特征、目标用户的唇形特征、多模波束特征输入多模语音分离模型,并根据模型输出的掩蔽信号,从混合语音中更为准确的分离出目标语音,从而提高了对于目标语音的分离效果。
技术关键词
声学特征
唇形特征
波束特征
样本
视频
跨模态
音频编码
图像编码
语音活动检测
支路
长短期记忆网络
可读存储介质
终端设备
处理器
算法
存储器
系统为您推荐了相关专利信息
实时分析方法
LBP特征
电力设备
历史运行数据
配网
顶点特征
高光谱遥感图像
赤潮检测方法
像素
新特征空间
BP神经网络模型
环境温度信息
预测颗粒物浓度
颗粒传感器
样本
摘要
训练样本数据
语义向量
生成训练样本
采样方法