摘要
本发明实施例提供一种多模态的目标说话人提取方法、电子设备和存储介质。该方法包括:获取带有说话人的音视频;将音视频输入至基于深度学习网络的视音频特征提取网络;在视音频特征提取网络中,利用子带编码抽取音视频中语音的语义特征,用于减小模型规模,利用shufflenet网络对音视频中视频进行特征映射,提取出视觉特征,用于降低计算开销,将语义特征与视觉特征进行融合,得到利用视觉特征约束语义特征的多模态特征;利用多模态特征对基于神经循环网络的说话人提取模型进行掩码训练。本发明实施例实现了一个计算资源消耗小、部署灵活的多模态说话人提取方法以及对应的训练方法,可以适应实时应用场景。
技术关键词
音视频
特征提取网络
视觉特征
语义特征
视音频
深度学习网络
麦克风阵列采集
多模态特征融合
人脸检测定位
语音
短时傅里叶变换
处理器
电子设备
系统为您推荐了相关专利信息
检测模型训练方法
农作物虫害
上采样
图像
特征提取网络
数据处理方法
加密算法
生物识别信息
对象
模糊匹配算法
数据搜索方法
实时数据
兴趣特征向量
多模态信息
图像视觉特征