摘要
本发明公开了一种基于深度学习的录播教室语音增强方法,用于对录播教室内采集的语音信号进行增强处理,以提高录播教室音频清晰度和音频信息可懂度。本发明在传统的深度复卷积神经网络的基础上,提出了一种基于时频长短时记忆网络(F‑T‑LSTM)和混合注意力机制的改进网络结构模型。该模型在深度复卷积递归网络上进行改进,通过引入F‑T‑LSTM结构更加准确地描述语音时域和频域的相关性,并融合通道注意力机制和空间注意力机制形成混合注意力机制,对复数域的语音特征进行更加全面的特征提取,巧妙地将计算力集中于语谱图特征信息最为丰富的领域,从而显著提高复数域下语音增强网络的整体性能,该网络模型具有较好的泛化能力。
技术关键词
录播教室
通道注意力机制
卷积递归网络
专业音频设备
卷积神经网络结构
语音特征
解码器
训练集
数据
深度学习算法
参数
语谱图
编码器
基础结构
级联
系统为您推荐了相关专利信息
SLAM系统
语义分割网络
动态场景
相机位姿估计
视觉
无线体温监测
柔性传感器
控制平台
多模态特征融合
数据
心率获取方法
卡尔曼滤波
信号
神经网络模型
心率获取设备