摘要
本发明涉及语音合成技术领域,可应用于金融科技、医疗健康等业务场景中,公开了一种语音生成方法、装置、设备及介质,包括:接收提示语音并转换为初始文本,基于字符与拼音的联合编码方式生成融合特征,通过文本编码器提取文本特征,结合基于码本生成方式提取的语音编码输入文本语音语言模型生成中间编码,同时提取提示语音中的说话人特征向量,并由生成对抗解码器对中间编码和说话人特征向量进行解码处理,输出目标语音。本发明通过融合字符语义与拼音发音信息建立细粒度的文本表示,结合码本驱动的声学编码与说话人个性特征,通过统一的语音语言建模与对抗生成机制完成语音克隆,提升了生成语音的自然度、相似度和发音准确性。
技术关键词
语音生成方法
拼音
生成方式
文本编码器
字符
融合特征
语音编码
解码器
生成器网络
生成程序
语音识别模块
生成语音
文本特征向量
重构误差
波形
声学特征
系统为您推荐了相关专利信息
图像生成模型
图像生成方法
文本编码器
指令
大语言模型
超分辨率模型
动态
轻量化卷积神经网络
双三次插值
对比度