一种基于多重一致性的跨模态说话人提取方法及系统

正文

推荐专利

申请号：CN202510853103

申请日期：2025-06-24

公开号：CN120600033A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提供了一种基于多重一致性的跨模态说话人提取方法及系统，获取包含目标说话人数据的混合语音信号和视频数据；对获取的混合语音信号进行音频编码，得到音频特征；对获取的视频数据进行一致性视觉特征提取，得到与目标语音在内容一致和身份一致的两种视觉特征；将内容一致的视觉特征和音频特征融合，对融合后的特征在嵌入Mamba的跨模态系统中进行说话人提取，得到分离出来的语音；使用身份一致的视觉特征对分离出来的语音进行身份约束，得到最终提取结果，本发明不需要额外的文本标记数据集来进行预训练，且能够有效利用视觉线索中的与语音内容对应的信息以及说话人的身份信息。

技术关键词

视觉特征提取音频特征语音身份一致性约束状态空间模型匹配网络视听音频信号编码视频网络结构音频编码器信噪比数据获取模块序列特征线性

系统为您推荐了相关专利信息

一种新能源乘用车续驶里程计算方法及系统

续驶里程计算方法新能源乘用车 LSTM神经网络电池管理系统数据能耗

一种对比增强非同构模态融合的多模态情感分析方法

模态特征情感分析方法样本文本音频特征

语音答复方法和装置、电子设备及存储介质

文本语音答复方法样本词语音色特征

室内移动服务机器人交互任务执行方法、装置及存储介质、室内移动服务机器人系统

室内移动服务机器人自动语音识别方法文本转语音方法彩色视觉信息机器人传感器

一种可交互的定制化数字人生成系统及生成方法

子模块音频特征多维边缘特征生成系统文本

一种基于多重一致性的跨模态说话人提取方法及系统

站点导航

APP 下载