摘要
本发明公开了一种基于跨模态知识迁移的语音增强方法及系统。本发明采用的语音增强方法,包括:将音频对应文本输入到大型语言模型中,获得上下文相关的语言嵌入特征;进行跨模态知识迁移,将语言嵌入特征融合至语音嵌入特征中,得到跨模态嵌入特征;进行语音增强模型的训练:使用平均绝对误差损失函数计算增强语音频谱与目标语音频谱之间的损失;使用余弦相似度损失函数计算跨模态嵌入特征与大型语言模型输出之间的损失;综合这两种损失,通过梯度下降算法优化语音增强模型的参数;在推理阶段仅使用训练好的语音增强模型进行语音增强处理。本发明能有效提高语音在嘈杂环境中的增强效果,并且在推理阶段无需文本数据或语言模型参与。
技术关键词
嵌入特征
跨模态
语音特征
梯度下降算法
声学特征
前馈神经网络
归一化模块
语音编码
音频
残差模块
交叉注意力机制
文本
特征提取单元
大语言模型
消除噪声
参数
阶段
系统为您推荐了相关专利信息
监督文本分类
训练集
bert模型
文本分类算法
策略
情感分析方法
模态特征
注意力
时域卷积网络
文本
文本编码器
序列
编码模块
联合损失函数
生成语音