摘要
本发明公开了一种基于视听骨融合的语音增强方法和装置,所述方法包括:获取语音增强训练数据集;利用所述语音增强训练数据集,对预设的语音增强模型进行训练处理,得到训练完毕的语音增强模型;采集得到用户在讲话状态下的多模态数据集;所述多模态数据集,包括视频数据、气导数据和骨导数据;所述多模态数据集,是基于同一时间基准采集得到;利用所述训练完毕的语音增强模型,对所述多模态数据集进行处理,得到增强语音信息。本发明能够有效利用三模态的信息应对高噪声环境下的语音增强挑战,在特定说话人增强和说话人分离方面取得显著成效。此外,本发明还克服了在视听语音增强中光照变化和人体头部姿态运动带来的干扰,以及气骨语音增强中高频信息缺失的挑战,进一步优化了语音增强的稳定性和准确性。
技术关键词
归一化模块
输出口
注意力
语音
输入端
网络模块
输出端
子模块
视听
输出模块
输入模块
计算机可存储介质
信息数据处理终端
变量
多模态
编码模块
可执行程序代码
系统为您推荐了相关专利信息
自动化管道
推荐方法
大语言模型
深度强化学习
注意力机制