摘要
本发明提供一种语音合成方案、装置、电子设备、存储介质及程序产品,涉及语音处理技术领域,包括:将文本内容输入到LLM语义理解模块,得到所述文本内容对应的深层语义特征以及多模态上下文语义信息;将所述深层语义特征传输到神经编解码器,输出压缩后的声学特征;将压缩后的所述声学特征输入到声学建模模块,输出高精度声学特征;将所述高精度声学特征和所述多模态上下文语义信息输入情感音律控制模块,输入带情感和韵律标注的语音参数;将所述带情感和韵律标注的语音参数,以及参考音频输入到音色迁移模块,得到所述参考音频对应音色的合成语音。
技术关键词
声学特征
上下文语义信息
语义特征
语音
编解码器
多模态
控制模块
文本
音频
音色特征
非暂态计算机可读存储介质
位置编码单元
编码特征
多尺度窗口
参数
编解码模块
韵律预测
系统为您推荐了相关专利信息
状态空间模型
声码器
时序依赖关系
语音
生成对抗网络训练
骨传导换能器
信号处理单元
耳机本体
语音
头戴式框架