多模态的目标说话人提取方法、电子设备和存储介质

正文

推荐专利

申请号：CN202411698424

申请日期：2024-11-25

公开号：CN119723261A

公开日期：2025-03-28

类型：发明专利

摘要

本发明实施例提供一种多模态的目标说话人提取方法、电子设备和存储介质。该方法包括：获取带有说话人的音视频；将音视频输入至基于深度学习网络的视音频特征提取网络；在视音频特征提取网络中，利用子带编码抽取音视频中语音的语义特征，用于减小模型规模，利用shufflenet网络对音视频中视频进行特征映射，提取出视觉特征，用于降低计算开销，将语义特征与视觉特征进行融合，得到利用视觉特征约束语义特征的多模态特征；利用多模态特征对基于神经循环网络的说话人提取模型进行掩码训练。本发明实施例实现了一个计算资源消耗小、部署灵活的多模态说话人提取方法以及对应的训练方法，可以适应实时应用场景。

技术关键词

音视频特征提取网络视觉特征语义特征视音频深度学习网络麦克风阵列采集多模态特征融合人脸检测定位语音短时傅里叶变换处理器电子设备

系统为您推荐了相关专利信息

农作物虫害检测、检测模型训练方法、装置、设备及介质

检测模型训练方法农作物虫害上采样图像特征提取网络

一种基于用户画像的自媒体多维度投流优化方法和系统

生成文本内容热力图内容流缓存策略语义特征

数据处理方法和装置及电子设备

数据处理方法加密算法生物识别信息对象模糊匹配算法

一种基于预训练模型定位知识嵌入的零样本目标检测方法

预训练模型模型预训练图像视觉特征标签

多模态数据搜索方法、装置、存储介质及计算机设备

数据搜索方法实时数据兴趣特征向量多模态信息图像视觉特征

多模态的目标说话人提取方法、电子设备和存储介质

站点导航

APP 下载