摘要
本发明提供了一种基于多重一致性的跨模态说话人提取方法及系统,获取包含目标说话人数据的混合语音信号和视频数据;对获取的混合语音信号进行音频编码,得到音频特征;对获取的视频数据进行一致性视觉特征提取,得到与目标语音在内容一致和身份一致的两种视觉特征;将内容一致的视觉特征和音频特征融合,对融合后的特征在嵌入Mamba的跨模态系统中进行说话人提取,得到分离出来的语音;使用身份一致的视觉特征对分离出来的语音进行身份约束,得到最终提取结果,本发明不需要额外的文本标记数据集来进行预训练,且能够有效利用视觉线索中的与语音内容对应的信息以及说话人的身份信息。
技术关键词
视觉特征提取
音频特征
语音
身份一致性约束
状态空间模型
匹配网络
视听
音频信号编码
视频
网络结构
音频编码器
信噪比
数据获取模块
序列特征
线性
系统为您推荐了相关专利信息
续驶里程计算方法
新能源乘用车
LSTM神经网络
电池管理系统数据
能耗
室内移动服务机器人
自动语音识别方法
文本转语音方法
彩色视觉信息
机器人传感器