一种基于半监督学习预训练的多模态语音增强算法

正文

推荐专利

申请号：CN202510029184

申请日期：2025-01-08

公开号：CN119724207A

公开日期：2025-03-28

类型：发明专利

摘要

本发明提供了一种基于半监督学习预训练的多模态语音增强算法，包括以下步骤：S1、将提取的含噪语音特征向量作为含噪语音GCRBM的输入；S2、利用传统谱减法对含噪语音去噪，得到去噪语音；S3、将估计的去噪语音特征向量作为纯净语音GCRBM的输入；S4、将提取的视频信号特征向量作为视频GCRBM的输入；S5、优化多模态语音增强网络的参数；S6、测试时，输入含噪语音特征到多模态语音增强网络；本发明通过提取语音特征和嘴部特征，将其输入至多模态语音增强网络中，在进行多模态语音增强网络的参数优化后，输入含噪语音特征到多模态语音增强网络以获取增强后的语音信号，降低语音标注成本，并提高语音增强的可懂度。

技术关键词

半监督学习多模态语音语音特征语音去噪算法矩阵视频样本标签训练集网络嘴部特征参数序列信号

系统为您推荐了相关专利信息

一种膳食图谱制作方法、装置、设备和可读存储介质

图谱制作方法背景板图像医疗护理技术处理器

一种基于数据驱动与多目标优化的偏航控制方法

偏航控制方法风速偏航电机偏航系统风电机组控制技术

一种融合即时通讯和邮箱通讯的通讯方法

融合即时通讯邮箱通讯方法混合通讯模式邮件

一种基于ACO-BP神经网络模型的煤自燃温度预测方法

BP神经网络模型温度预测方法气体监测设备气体分析仪温度变化信息

港口基础设施性能监测结构传感器原位校准方法及系统

港口基础设施结构传感器原位校准方法深度神经网络模型实时数据

一种基于半监督学习预训练的多模态语音增强算法

站点导航

APP 下载