摘要
本发明公开了一种拟人化的语音合成方法、装置及可读存储介质,包括:首先,对待处理文本进行特征编码,获取包含语义和语境信息的文本编码特征。接着,通过语音风格预测得到对应的语音风格信息,并提取其风格特征隐变量。将文本编码特征与风格特征隐变量融合,形成融合语音特征。然后,将这些特征输入预设的特征解码器,获得语音解码特征向量。进一步地,结合目标说话用户的身份标识进行特征转化,得到音频信号特征。最后,利用声码器处理这些音频信号特征,生成具有拟人化特色的目标合成语音。如此设计,能够显著提高语音合成的自然度和个性化表现,为用户提供更加逼真的语音交互体验。
技术关键词
编码特征
语音特征
信号特征
风格
解码器
瓶颈特征
变量
文本编码器
声码器
音频
可读存储介质
自动语音识别
身份
样本
对齐工具
语义
系统为您推荐了相关专利信息
图像生成模型
图像主体
图像特征向量
风格
多层感知器
驾驶风格识别
车辆控制方法
加速度
数据
车辆周边
双目相机
高分辨率深度图
多尺寸
图像拼接
融合特征