一种语音分离方法、装置、存储介质及设备

正文

推荐专利

一种语音分离方法、装置、存储介质及设备

申请号：CN202510004246

申请日期：2025-01-02

公开号：CN119785817A

公开日期：2025-04-08

类型：发明专利

摘要

本申请公开了一种语音分离方法、装置、存储介质及设备，该方法包括：首先获取待分离的混合语音和目标视频；并提取混合语音的声学特征；然后将混合语音的声学特征和目标视频包含的目标用户唇形的图像输入多模对齐模型，得到目标用户的唇形特征；接着将混合语音的声学特征和目标用户的唇形特征输入多模VAD模型，得到混合语音的分离概率；再根据混合语音的分离概率，结合波束形成算法，计算混合语音对应的多模波束特征，进而可以将混合语音的声学特征、目标用户的唇形特征、多模波束特征输入多模语音分离模型，并根据模型输出的掩蔽信号，从混合语音中更为准确的分离出目标语音，从而提高了对于目标语音的分离效果。

技术关键词

声学特征唇形特征波束特征样本视频跨模态音频编码图像编码语音活动检测支路长短期记忆网络可读存储介质终端设备处理器算法存储器

系统为您推荐了相关专利信息

一种用于地质三维模型的质量评估方法

三维地质模型三维模型指标项目特征聚类分析

一种10KV配网供电可靠性实时分析方法

实时分析方法 LBP特征电力设备历史运行数据配网

一种高光谱遥感图像赤潮检测方法及系统

顶点特征高光谱遥感图像赤潮检测方法像素新特征空间

一种颗粒物浓度的确定方法、装置、电子设备及存储介质

BP神经网络模型环境温度信息预测颗粒物浓度颗粒传感器样本

对话摘要生成模型微调训练用样本数据选择方法及系统

摘要训练样本数据语义向量生成训练样本采样方法

一种语音分离方法、装置、存储介质及设备

站点导航

APP 下载