一种基于上下文学习的端到端的背景保留语音转换方法

AITNT
正文
推荐专利
一种基于上下文学习的端到端的背景保留语音转换方法
申请号:CN202510467741
申请日期:2025-04-14
公开号:CN120299452A
公开日期:2025-07-11
类型:发明专利
摘要
本发明公开了一种基于上下文学习的端到端的背景保留语音转换方法,包括将零填充的目标说话人干净语音梅尔频谱、重复填充的源说话人带背景声语音梅尔频谱和拼接的语义标记、对齐输入预训练好的生成模型,得到目标说话人带背景声语音梅尔频谱,经声码器处理输出目标说话人带背景语音,该语音的音色转换为源说话人语音的音色,并保留了目标说话人语音的内容和背景声音。本发明通过单一模型实现语音转换和背景保留的双重功能,显著降低了系统复杂度,同时避免引入失真风险,模型能够从原始带噪音频中学习背景声,并根据输入条件自适应地生成带背景声或不带背景声的语音信号,能够满足不同场景的需求。
技术关键词
语音转换方法 语义 标记 预训练模型 生成语音 变量 复杂度 定义 场景 算法 风险 参数 信号
系统为您推荐了相关专利信息
1
一种基于图神经网络的海底声呐图像识别系统
海底地貌 海底声呐 图像识别方法 语义特征 图像识别系统
2
求职者质量等级确定方法、装置、设备、介质及程序产品
语义 信息抽取模型 关键词 字段 可读存储介质
3
图像处理方法、装置、电子设备及存储介质
样本 脸部关键点 注意力 掩膜 融合特征
4
一种基于多模态大模型的可视化大屏开发的方法及系统
统一接口网关 可视化大屏 多模态 布局优化算法 支撑模块
5
一种面向中文语境的多模态理解与生成评测方法、系统
面向中文 评测方法 情境要素 视频 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号