摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种语音风格迁移方法,包括:提取源语音和参考语音的特征,分离内容特征和风格特征;基于时间参数对初始源特征进行线性插值,生成中间特征;将中间特征输入流匹配模型,生成参考特征和重构特征;计算循环一致性损失,并基于该损失优化流匹配模型参数;将优化后的模型用于风格迁移,生成迁移语音波形。本发明通过循环一致性损失约束风格迁移过程,确保语音的语义和风格一致性,结合时间插值处理提升转换平滑度,并利用流匹配模型实现跨说话人风格迁移,提高未见说话人的风格适应能力,模型优化降低对标注数据的依赖,提升生成语音的稳定性和自然度。
技术关键词
语音风格迁移方法
重构
输入流
融合特征
匹配模型参数
波形
分析模块
多模态
语音特征提取
滑动平均滤波
短时傅里叶变换
多头注意力机制
输入多尺度
计算机设备
验证特征
插值模块
系统为您推荐了相关专利信息
大坝
异常检测方法
生成对抗网络
深度学习模型
样本
多模态深度学习
智能辅助方法
医学影像数据
分词
文本数据提取
分类方法
雷达
卷积模型
Softmax分类器
样本
多模态特征
性能监控
融合特征
注意力
计算机可读指令
无人机检测方法
事件相机
视觉特征
事件特征
检测头