一种目标人脸的语音分离方法、设备及装置

AITNT
正文
推荐专利
一种目标人脸的语音分离方法、设备及装置
申请号:CN202510999525
申请日期:2025-07-21
公开号:CN120510865A
公开日期:2025-08-19
类型:发明专利
摘要
本申请公开了一种目标人脸的语音分离方法、设备及装置,涉及语音提取技术领域。方法包括:获取目标说话人的待分离语音视频,并提取待分离语音视频中的混合音频信息及目标说话人的人脸信息与嘴唇信息;通过预训练的多模态编码器中的视觉线索融合模块,对人脸信息与嘴唇信息进行处理,以获得视觉线索;基于视觉线索,通过多模态编码器中的语音分离模块,对混合音频信息进行语音信号分离,以获得目标语音。本申请通过上述方法实现了在视觉线索部分缺失、质量不佳的情况下,依然能够鲁棒、准确地提取目标说话人的语音。
技术关键词
人脸 语音分离器 线索 视觉 音频 语音解码器 语音编码器 样本 多模态 语音提取技术 时序 模块 信号 视频流 融合器
系统为您推荐了相关专利信息
1
一种基于中医药AI大模型的中医多诊系统
中医药 患者 脉象信息 舌苔图像 面色信息
2
一种自动化的手术用品管理方法、装置、设备及存储介质
手术用品管理方法 人脸特征信息 身份 图像处理算法 柜门
3
多模态鱼群摄食强度检测方法、系统、设备、介质及产品
强度检测方法 视频 音频 非暂态计算机可读存储介质 训练样本集
4
一种基于深度学习的树障入侵检测方法
入侵检测方法 双目深度估计 综合评估模型 电力线轮廓 数字图像处理技术
5
一种注塑模具用缺陷监测系统及方法
缺陷监测系统 注塑模具用 切断机构 五金件 水口
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号