摘要
本申请涉及一种语音合成方法、装置、直播系统、电子设备及计算机可读存储介质;所述方法包括:获取语言合成的目标文本和说话人的音色特征;对目标引导音频进行编码得到去除音色的目标离散语义编码;其中,所述目标离散语义编码包含韵律特征;基于大语言模型对所述目标离散语义编码和所述目标文本进行预测得到待合成音频编码;其中,所述待合成音频编码包括目标引导音频的韵律和目标文本的语义特征;根据所述目标文本和音色特征对所述待合成音频编码进行解码得到语音合成音频;该技术方案,合成语音能逼近真人语音效果,可以调制合成语音的韵律和音色,满足网络直播中的多样化应用需求。
技术关键词
音频编码
音色特征
大语言模型
文本
语音
语义特征
解码器
韵律特征
直播系统
视频流
编码器
音频特征提取
电子设备
服务器
可读存储介质
解码模块
编码模块
系统为您推荐了相关专利信息
煤矿井下施工
转录系统
钻孔作业
语音转录方法
生成作业
优先级管理系统
多模态交互
自定义指令
机械臂
输入设备
图像编码器
图像增强
分块DCT变换
文本编码器
频域特征