一种基于上下文学习的端到端的背景保留语音转换方法

正文

推荐专利

申请号：CN202510467741

申请日期：2025-04-14

公开号：CN120299452A

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开了一种基于上下文学习的端到端的背景保留语音转换方法，包括将零填充的目标说话人干净语音梅尔频谱、重复填充的源说话人带背景声语音梅尔频谱和拼接的语义标记、对齐输入预训练好的生成模型，得到目标说话人带背景声语音梅尔频谱，经声码器处理输出目标说话人带背景语音，该语音的音色转换为源说话人语音的音色，并保留了目标说话人语音的内容和背景声音。本发明通过单一模型实现语音转换和背景保留的双重功能，显著降低了系统复杂度，同时避免引入失真风险，模型能够从原始带噪音频中学习背景声，并根据输入条件自适应地生成带背景声或不带背景声的语音信号，能够满足不同场景的需求。

技术关键词

语音转换方法语义标记预训练模型生成语音变量复杂度定义场景算法风险参数信号

系统为您推荐了相关专利信息

一种基于图神经网络的海底声呐图像识别系统

海底地貌海底声呐图像识别方法语义特征图像识别系统

求职者质量等级确定方法、装置、设备、介质及程序产品

语义信息抽取模型关键词字段可读存储介质

图像处理方法、装置、电子设备及存储介质

样本脸部关键点注意力掩膜融合特征

一种基于多模态大模型的可视化大屏开发的方法及系统

统一接口网关可视化大屏多模态布局优化算法支撑模块

一种面向中文语境的多模态理解与生成评测方法、系统

面向中文评测方法情境要素视频文本

一种基于上下文学习的端到端的背景保留语音转换方法

站点导航

APP 下载