摘要
本发明提供了一种基于半监督学习预训练的多模态语音增强算法,包括以下步骤:S1、将提取的含噪语音特征向量作为含噪语音GCRBM的输入;S2、利用传统谱减法对含噪语音去噪,得到去噪语音;S3、将估计的去噪语音特征向量作为纯净语音GCRBM的输入;S4、将提取的视频信号特征向量作为视频GCRBM的输入;S5、优化多模态语音增强网络的参数;S6、测试时,输入含噪语音特征到多模态语音增强网络;本发明通过提取语音特征和嘴部特征,将其输入至多模态语音增强网络中,在进行多模态语音增强网络的参数优化后,输入含噪语音特征到多模态语音增强网络以获取增强后的语音信号,降低语音标注成本,并提高语音增强的可懂度。
技术关键词
半监督学习
多模态语音
语音特征
语音去噪
算法
矩阵
视频
样本
标签训练集
网络
嘴部特征
参数
序列
信号
系统为您推荐了相关专利信息
偏航控制方法
风速
偏航电机
偏航系统
风电机组控制技术
BP神经网络模型
温度预测方法
气体监测设备
气体分析仪
温度变化信息
港口基础设施
结构传感器
原位校准方法
深度神经网络模型
实时数据