摘要
本发明公开了基于多尺度多模态对齐网络的目标说话人提取方法及系统,涉及目标说话人提取技术领域。本发明构建了多尺度多模态对齐网络来进行目标说话人提取,其一方面通过多尺度编码来获取不同时间尺度的语音嵌入、并通过多方向深度编码提取出更加丰富的语音嵌入;另一方面,引入了基于对比学习的模态对齐部,使其在网络训练时在同一时间步长上最小化脑电特征与语音嵌入之间的距离、并构建出噪声对比估计损失以配合基于语音解码部输出而构建的尺度不变信号失真比损失组成整个网络使用的损失函数,不仅实现了跨模态数据的对齐、并降低多模态融合的难度,而且实现了对网络整体参数的调整,保证并提高了网络进行目标说话人提取的整体性能。
技术关键词
多模态
多尺度
交叉注意力机制
深度编码
网络
语音编码
信号失真
解码
短时间尺度
切块
参数
长时间尺度
脑电特征
数据获取模块
计算机程序产品
语音特征
线性
系统为您推荐了相关专利信息
基板管理控制器
故障预测系统
波动特征
历史运行数据
时序特征
建筑设施
状态评价方法
无序分类变量
贝叶斯网络模型
状态评价系统
障碍物检测装置
摄像头模块
存储卡接口
告警装置
主板
图像处理方法
像素
生成近红外图像
神经网络模型训练
卷积特征提取