基于多尺度多模态对齐网络的目标说话人提取方法及系统

AITNT
正文
推荐专利
基于多尺度多模态对齐网络的目标说话人提取方法及系统
申请号:CN202510290875
申请日期:2025-03-12
公开号:CN120126454B
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了基于多尺度多模态对齐网络的目标说话人提取方法及系统,涉及目标说话人提取技术领域。本发明构建了多尺度多模态对齐网络来进行目标说话人提取,其一方面通过多尺度编码来获取不同时间尺度的语音嵌入、并通过多方向深度编码提取出更加丰富的语音嵌入;另一方面,引入了基于对比学习的模态对齐部,使其在网络训练时在同一时间步长上最小化脑电特征与语音嵌入之间的距离、并构建出噪声对比估计损失以配合基于语音解码部输出而构建的尺度不变信号失真比损失组成整个网络使用的损失函数,不仅实现了跨模态数据的对齐、并降低多模态融合的难度,而且实现了对网络整体参数的调整,保证并提高了网络进行目标说话人提取的整体性能。
技术关键词
多模态 多尺度 交叉注意力机制 深度编码 网络 语音编码 信号失真 解码 短时间尺度 切块 参数 长时间尺度 脑电特征 数据获取模块 计算机程序产品 语音特征 线性
系统为您推荐了相关专利信息
1
融合边缘特征与细节感知网络的髋臼指数关键点检测方法
融合边缘特征 关键点检测方法 髋关节 髋臼 指数
2
服务器的故障预测系统、方法及存储介质
基板管理控制器 故障预测系统 波动特征 历史运行数据 时序特征
3
基于数据不平衡处理改进的贝叶斯网络老旧文旅建筑设施状态评价系统、方法、存储介质
建筑设施 状态评价方法 无序分类变量 贝叶斯网络模型 状态评价系统
4
一种后装车道及障碍物检测装置及使用方法
障碍物检测装置 摄像头模块 存储卡接口 告警装置 主板
5
一种基于近红外成像的图像处理方法及系统
图像处理方法 像素 生成近红外图像 神经网络模型训练 卷积特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号