一种目标人脸的语音分离方法、设备及装置

正文

推荐专利

一种目标人脸的语音分离方法、设备及装置

申请号：CN202510999525

申请日期：2025-07-21

公开号：CN120510865A

公开日期：2025-08-19

类型：发明专利

摘要

本申请公开了一种目标人脸的语音分离方法、设备及装置，涉及语音提取技术领域。方法包括：获取目标说话人的待分离语音视频，并提取待分离语音视频中的混合音频信息及目标说话人的人脸信息与嘴唇信息；通过预训练的多模态编码器中的视觉线索融合模块，对人脸信息与嘴唇信息进行处理，以获得视觉线索；基于视觉线索，通过多模态编码器中的语音分离模块，对混合音频信息进行语音信号分离，以获得目标语音。本申请通过上述方法实现了在视觉线索部分缺失、质量不佳的情况下，依然能够鲁棒、准确地提取目标说话人的语音。

技术关键词

人脸语音分离器线索视觉音频语音解码器语音编码器样本多模态语音提取技术时序模块信号视频流融合器

系统为您推荐了相关专利信息

一种基于中医药AI大模型的中医多诊系统

中医药患者脉象信息舌苔图像面色信息

一种自动化的手术用品管理方法、装置、设备及存储介质

手术用品管理方法人脸特征信息身份图像处理算法柜门

多模态鱼群摄食强度检测方法、系统、设备、介质及产品

强度检测方法视频音频非暂态计算机可读存储介质训练样本集

一种基于深度学习的树障入侵检测方法

入侵检测方法双目深度估计综合评估模型电力线轮廓数字图像处理技术

一种注塑模具用缺陷监测系统及方法

缺陷监测系统注塑模具用切断机构五金件水口

一种目标人脸的语音分离方法、设备及装置

站点导航

APP 下载