基于多尺度多模态对齐网络的目标说话人提取方法及系统

正文

推荐专利

申请号：CN202510290875

申请日期：2025-03-12

公开号：CN120126454B

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了基于多尺度多模态对齐网络的目标说话人提取方法及系统，涉及目标说话人提取技术领域。本发明构建了多尺度多模态对齐网络来进行目标说话人提取，其一方面通过多尺度编码来获取不同时间尺度的语音嵌入、并通过多方向深度编码提取出更加丰富的语音嵌入；另一方面，引入了基于对比学习的模态对齐部，使其在网络训练时在同一时间步长上最小化脑电特征与语音嵌入之间的距离、并构建出噪声对比估计损失以配合基于语音解码部输出而构建的尺度不变信号失真比损失组成整个网络使用的损失函数，不仅实现了跨模态数据的对齐、并降低多模态融合的难度，而且实现了对网络整体参数的调整，保证并提高了网络进行目标说话人提取的整体性能。

技术关键词

多模态多尺度交叉注意力机制深度编码网络语音编码信号失真解码短时间尺度切块参数长时间尺度脑电特征数据获取模块计算机程序产品语音特征线性

系统为您推荐了相关专利信息

融合边缘特征与细节感知网络的髋臼指数关键点检测方法

融合边缘特征关键点检测方法髋关节髋臼指数

服务器的故障预测系统、方法及存储介质

基板管理控制器故障预测系统波动特征历史运行数据时序特征

基于数据不平衡处理改进的贝叶斯网络老旧文旅建筑设施状态评价系统、方法、存储介质

建筑设施状态评价方法无序分类变量贝叶斯网络模型状态评价系统

一种后装车道及障碍物检测装置及使用方法

障碍物检测装置摄像头模块存储卡接口告警装置主板

一种基于近红外成像的图像处理方法及系统

图像处理方法像素生成近红外图像神经网络模型训练卷积特征提取

基于多尺度多模态对齐网络的目标说话人提取方法及系统

站点导航

APP 下载