一种基于半监督学习预训练的多模态语音增强算法

AITNT
正文
推荐专利
一种基于半监督学习预训练的多模态语音增强算法
申请号:CN202510029184
申请日期:2025-01-08
公开号:CN119724207A
公开日期:2025-03-28
类型:发明专利
摘要
本发明提供了一种基于半监督学习预训练的多模态语音增强算法,包括以下步骤:S1、将提取的含噪语音特征向量作为含噪语音GCRBM的输入;S2、利用传统谱减法对含噪语音去噪,得到去噪语音;S3、将估计的去噪语音特征向量作为纯净语音GCRBM的输入;S4、将提取的视频信号特征向量作为视频GCRBM的输入;S5、优化多模态语音增强网络的参数;S6、测试时,输入含噪语音特征到多模态语音增强网络;本发明通过提取语音特征和嘴部特征,将其输入至多模态语音增强网络中,在进行多模态语音增强网络的参数优化后,输入含噪语音特征到多模态语音增强网络以获取增强后的语音信号,降低语音标注成本,并提高语音增强的可懂度。
技术关键词
半监督学习 多模态语音 语音特征 语音去噪 算法 矩阵 视频 样本 标签训练集 网络 嘴部特征 参数 序列 信号
系统为您推荐了相关专利信息
1
一种膳食图谱制作方法、装置、设备和可读存储介质
图谱制作方法 背景板 图像 医疗护理技术 处理器
2
一种基于数据驱动与多目标优化的偏航控制方法
偏航控制方法 风速 偏航电机 偏航系统 风电机组控制技术
3
一种融合即时通讯和邮箱通讯的通讯方法
融合即时通讯 邮箱 通讯方法 混合通讯模式 邮件
4
一种基于ACO-BP神经网络模型的煤自燃温度预测方法
BP神经网络模型 温度预测方法 气体监测设备 气体分析仪 温度变化信息
5
港口基础设施性能监测结构传感器原位校准方法及系统
港口基础设施 结构传感器 原位校准方法 深度神经网络模型 实时数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号