一种语音分离方法、装置、存储介质及设备

AITNT
正文
推荐专利
一种语音分离方法、装置、存储介质及设备
申请号:CN202510004246
申请日期:2025-01-02
公开号:CN119785817A
公开日期:2025-04-08
类型:发明专利
摘要
本申请公开了一种语音分离方法、装置、存储介质及设备,该方法包括:首先获取待分离的混合语音和目标视频;并提取混合语音的声学特征;然后将混合语音的声学特征和目标视频包含的目标用户唇形的图像输入多模对齐模型,得到目标用户的唇形特征;接着将混合语音的声学特征和目标用户的唇形特征输入多模VAD模型,得到混合语音的分离概率;再根据混合语音的分离概率,结合波束形成算法,计算混合语音对应的多模波束特征,进而可以将混合语音的声学特征、目标用户的唇形特征、多模波束特征输入多模语音分离模型,并根据模型输出的掩蔽信号,从混合语音中更为准确的分离出目标语音,从而提高了对于目标语音的分离效果。
技术关键词
声学特征 唇形特征 波束特征 样本 视频 跨模态 音频编码 图像编码 语音活动检测 支路 长短期记忆网络 可读存储介质 终端设备 处理器 算法 存储器
系统为您推荐了相关专利信息
1
一种用于地质三维模型的质量评估方法
三维地质模型 三维模型 指标 项目 特征聚类分析
2
一种10KV配网供电可靠性实时分析方法
实时分析方法 LBP特征 电力设备 历史运行数据 配网
3
一种高光谱遥感图像赤潮检测方法及系统
顶点特征 高光谱遥感图像 赤潮检测方法 像素 新特征空间
4
一种颗粒物浓度的确定方法、装置、电子设备及存储介质
BP神经网络模型 环境温度信息 预测颗粒物浓度 颗粒传感器 样本
5
对话摘要生成模型微调训练用样本数据选择方法及系统
摘要 训练样本数据 语义向量 生成训练样本 采样方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号