摘要
本申请实施例提供一种语音生成方法、设备、存储介质及程序产品。在该方法中,可获取文本,将模型提示词和文本输入到标签生成模型,在模型提示词的引导下,生成多个文本片段的语音参数标签;将多个文本片段以及各自的语音参数标签输入语音生成模型,基于多个文本片段以及各自的语音参数标签生成多个目标语音片段,从而拼接得到文本对应的目标语音。通过这种方式,可基于标签生成模型和模型提示词较为准确地生成文本片段的语音参数标签,并基于语音生成模型和语音参数标签较为准确地进行语音生成,生成的目标语音的每个语音片段具有语音参数标签要求的语速、音量和/或停顿时长,因而更加自然,与文本的适配度更高。
技术关键词
文本
语音生成模型
语音生成方法
参数
语义特征
独立语义
标签特征
处理器
表情特征
计算机程序产品
分段
指令
标记
面部
可读存储介质
终端设备
系统为您推荐了相关专利信息
时序遥感数据
预训练语言模型
文本
地表特征
图像
无线控制方法
模拟退火算法
加热棒
能耗
皮尔逊相关系数
知识库构建方法
离线
搜索方法
数据
深度学习模型