一种基于跨模态知识迁移的语音增强方法及系统

AITNT
正文
推荐专利
一种基于跨模态知识迁移的语音增强方法及系统
申请号:CN202511093458
申请日期:2025-08-06
公开号:CN120612956A
公开日期:2025-09-09
类型:发明专利
摘要
本发明公开了一种基于跨模态知识迁移的语音增强方法及系统。本发明采用的语音增强方法,包括:将音频对应文本输入到大型语言模型中,获得上下文相关的语言嵌入特征;进行跨模态知识迁移,将语言嵌入特征融合至语音嵌入特征中,得到跨模态嵌入特征;进行语音增强模型的训练:使用平均绝对误差损失函数计算增强语音频谱与目标语音频谱之间的损失;使用余弦相似度损失函数计算跨模态嵌入特征与大型语言模型输出之间的损失;综合这两种损失,通过梯度下降算法优化语音增强模型的参数;在推理阶段仅使用训练好的语音增强模型进行语音增强处理。本发明能有效提高语音在嘈杂环境中的增强效果,并且在推理阶段无需文本数据或语言模型参与。
技术关键词
嵌入特征 跨模态 语音特征 梯度下降算法 声学特征 前馈神经网络 归一化模块 语音编码 音频 残差模块 交叉注意力机制 文本 特征提取单元 大语言模型 消除噪声 参数 阶段
系统为您推荐了相关专利信息
1
面向非结构化PDF文档的多模态语义理解方法及系统
语义理解方法 框架 多模态交互 跨模态 实体
2
一种互补决定区3与免疫表位结合预测方法
注意力 焦点损失函数 样本 异质 优化器
3
一种基于Transformer的半监督文本分类算法
监督文本分类 训练集 bert模型 文本分类算法 策略
4
基于非同质层次融合的多模态情感分析方法
情感分析方法 模态特征 注意力 时域卷积网络 文本
5
基于深度学习和声音克隆的实时交互3D数字全息舱方法
文本编码器 序列 编码模块 联合损失函数 生成语音
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号