语音风格迁移方法、装置、设备及介质

正文

推荐专利

语音风格迁移方法、装置、设备及介质

申请号：CN202510835571

申请日期：2025-06-20

公开号：CN120526748A

公开日期：2025-08-22

类型：发明专利

摘要

本发明涉及语音处理技术领域，可应用于金融科技及医疗健康等业务场景中，公开了一种语音风格迁移方法、装置、设备及介质，包括：获取源语音信号与目标风格特征，对源语音信号执行特征提取以生成源语音内容特征与潜在风格特征，对目标风格特征进行编码以生成编码后的目标风格特征，利用预训练的多模态大模型对源语音内容特征、潜在风格特征和编码后的目标风格特征进行风格解耦与迁移处理，生成迁移处理后的特征，基于迁移处理后的特征生成目标语音信号。本发明通过融合源语音的语义与风格信息，并结合编码后的目标风格特征执行风格迁移，利用多模态大模型实现内容与风格的有效解耦和自适应融合，提升了跨说话人、跨场景的语音迁移效果与实用性。

技术关键词

语音风格迁移方法融合特征音频特征信号梅尔频率倒谱系数声学特征执行语音识别元学习策略多模态语义特征文本计算机设备特征提取模块医疗健康数据获取模块处理器编码模块

系统为您推荐了相关专利信息

热泵控制设备和热泵系统

热泵控制设备隔离电路放大器接地端隔离模块

一种新能源发动机及车辆控制软件测试、标定的系统和方法

新能源发动机通讯接口仿真模型模拟信号输出模块数据模块

一种基于V2X的智能驾驶汽车用共享定位系统

智能驾驶汽车设备主体定位系统车载设备路边单元

基于多模态与对比学习的中药多标签毒性预测方法及系统

毒性预测方法融合特征中药多标签多模态

一种基于行人场景交互建模的行人轨迹预测方法及装置

行人轨迹预测方法交互特征场景特征轨迹特征场景语义分割

语音风格迁移方法、装置、设备及介质

站点导航

APP 下载