多模态的目标说话人提取方法、电子设备和存储介质

AITNT
正文
推荐专利
多模态的目标说话人提取方法、电子设备和存储介质
申请号:CN202411698424
申请日期:2024-11-25
公开号:CN119723261A
公开日期:2025-03-28
类型:发明专利
摘要
本发明实施例提供一种多模态的目标说话人提取方法、电子设备和存储介质。该方法包括:获取带有说话人的音视频;将音视频输入至基于深度学习网络的视音频特征提取网络;在视音频特征提取网络中,利用子带编码抽取音视频中语音的语义特征,用于减小模型规模,利用shufflenet网络对音视频中视频进行特征映射,提取出视觉特征,用于降低计算开销,将语义特征与视觉特征进行融合,得到利用视觉特征约束语义特征的多模态特征;利用多模态特征对基于神经循环网络的说话人提取模型进行掩码训练。本发明实施例实现了一个计算资源消耗小、部署灵活的多模态说话人提取方法以及对应的训练方法,可以适应实时应用场景。
技术关键词
音视频 特征提取网络 视觉特征 语义特征 视音频 深度学习网络 麦克风阵列采集 多模态特征融合 人脸检测定位 语音 短时傅里叶变换 处理器 电子设备
系统为您推荐了相关专利信息
1
农作物虫害检测、检测模型训练方法、装置、设备及介质
检测模型训练方法 农作物虫害 上采样 图像 特征提取网络
2
一种基于用户画像的自媒体多维度投流优化方法和系统
生成文本内容 热力图 内容流 缓存策略 语义特征
3
数据处理方法和装置及电子设备
数据处理方法 加密算法 生物识别信息 对象 模糊匹配算法
4
一种基于预训练模型定位知识嵌入的零样本目标检测方法
预训练模型 模型预训练 图像 视觉特征 标签
5
多模态数据搜索方法、装置、存储介质及计算机设备
数据搜索方法 实时数据 兴趣特征向量 多模态信息 图像视觉特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号