摘要
本发明实施例提供了一种歌声转换系统的训练方法、基于歌声转换系统生成音频的方法及相关装置,用于提升合成后歌声的音色与待转换歌声音色之间的相似度。本发明实施例方法包括:获取第一目标音色的多条参考音频,将多条参考音频输入至音色编码器,得到音色编码向量;将待转换歌声的音素后验概率和基频输入至文本编码器,得到待转换歌声内容的先验分布参数;根据先验分布参数进行采样,得到待转换歌声内容的文本采样值向量;将文本采样值向量和音色编码向量输入至音色感知注意力机制模块,以确定新音色编码向量;将新音色编码向量作为歌声转换系统中所增加的新输入,计算歌声转换系统的重构损失,根据重构损失对歌声转换系统进行训练。
技术关键词
编码向量
文本编码器
音素后验概率
多头注意力机制
音频
解码器
传播算法
重构
线性
上采样
语音
编码器模块
参数
计算机装置
计算机程序产品
处理器
系统为您推荐了相关专利信息
教育辅导系统
模块
虚拟现实体验
隐私数据保护
触觉反馈设备
融合特征
生成提示词
矩阵
多模态
梅尔频率倒谱系数
动作生成方法
训练样本数据
动作生成程序
策略
网络