一种基于跨模态知识迁移的语音增强方法及系统

正文

推荐专利

申请号：CN202511093458

申请日期：2025-08-06

公开号：CN120612956A

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开了一种基于跨模态知识迁移的语音增强方法及系统。本发明采用的语音增强方法，包括：将音频对应文本输入到大型语言模型中，获得上下文相关的语言嵌入特征；进行跨模态知识迁移，将语言嵌入特征融合至语音嵌入特征中，得到跨模态嵌入特征；进行语音增强模型的训练：使用平均绝对误差损失函数计算增强语音频谱与目标语音频谱之间的损失；使用余弦相似度损失函数计算跨模态嵌入特征与大型语言模型输出之间的损失；综合这两种损失，通过梯度下降算法优化语音增强模型的参数；在推理阶段仅使用训练好的语音增强模型进行语音增强处理。本发明能有效提高语音在嘈杂环境中的增强效果，并且在推理阶段无需文本数据或语言模型参与。

技术关键词

嵌入特征跨模态语音特征梯度下降算法声学特征前馈神经网络归一化模块语音编码音频残差模块交叉注意力机制文本特征提取单元大语言模型消除噪声参数阶段

系统为您推荐了相关专利信息

面向非结构化PDF文档的多模态语义理解方法及系统

语义理解方法框架多模态交互跨模态实体

一种互补决定区3与免疫表位结合预测方法

注意力焦点损失函数样本异质优化器

一种基于Transformer的半监督文本分类算法

监督文本分类训练集 bert模型文本分类算法策略

基于非同质层次融合的多模态情感分析方法

情感分析方法模态特征注意力时域卷积网络文本

基于深度学习和声音克隆的实时交互3D数字全息舱方法

文本编码器序列编码模块联合损失函数生成语音

一种基于跨模态知识迁移的语音增强方法及系统

站点导航

APP 下载