摘要
本申请实施例提供了一种语音生成方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:通过原始语音转换模型对原始语音数据进行语音特征提取得到参考语音特征和选定语音特征,参考语音特征具有目标对象声音风格;将参考语音特征和选定语音特征进行相似度度量得到特征相似度数据;根据特征相似度数据对选定语音特征筛选得到目标语音特征;其中,目标语音特征不具有目标对象声音风格;根据目标语音特征、参考语音特征和训练文本对原始语音生成模型进行模型训练得到目标语音生成模型;通过目标语音生成模型和目标文本生成目标语音数据。本申请实施例能够提高语音生成的稳定性,并减少参考音频的依赖,提高语音生成的灵活性。
技术关键词
语音生成模型
语音特征提取
语音生成方法
语音编码器
文本编码器
语义解析信息
数据
对象识别
计算机设备
风格
特征提取器
度量
模型训练模块
可读存储介质
分词
系统为您推荐了相关专利信息
医学图像信息
对齐方法
交叉注意力机制
节点
图像编码器
语音生成方法
语音生成模型
多层次特征提取
文本
音频
证件图片
伪造识别方法
多模态
深度学习网络
基础
文本特征向量
图像特征向量
模型优化系统
文本编码器
样本