摘要
本发明提供了一种基于大模型的多通道语音信号融合与增强方法、装置及电子设备,涉及语音数据处理技术领域,包括:获取多通道语音信号;对多通道语音信号的每个通道信号进行时频转换,并提取得到多模态特征;将多模态特征输入混合编码器,通过多头注意力机制与门控循环单元融合通道间依赖关系,输出融合特征;将融合特征输入复数域解耦网络,分离为有效语音数据与无效语音数据;基于有效语音数据重构增强频谱,结合原始相位执行逆短时傅里叶变换,生成初始增强语音数据;对无效语音数据进行非线性抑制,得到抑制后噪声数据;将增强语音数据与抑制后噪声数据合成,输出增强语音数据。本发明,综合了提升语音质量、实时性与能效表现。
技术关键词
多通道
噪声功率谱估计
噪声数据
多模态特征
短时傅里叶变换
混合编码器
多头注意力机制
融合特征
信号
语音数据处理技术
门控循环单元网络
稀疏编码特征
卷积长短期记忆
存储计算机可执行指令
麦克风阵列采集
声学反射板
系统为您推荐了相关专利信息
模糊函数特征
辐射源
单脉冲
识别方法
特征提取单元
激光束
网格地图
卡尔曼滤波算法
运动补偿
动态物体检测
风险传导模型
管理系统
物流监控
网络风险监测
动态增量