摘要
本申请涉及语音合成领域,涉及一种基于文本提示词的语音合成方法、装置、设备和介质,该方法包括:获取待语音合成的目标文本内容;获取目标文本内容对应的文本提示词,文本提示词包括说话人风格的描述信息;基于预设的提示编码器,对目标文本内容进行特征提取,获得文本内容特征;基于提示编码器,对文本提示词进行特征提取,得到说话人风格特征;将文本内容特征与说话人风格特征输入预设的声学模型进行语音生成,得到目标语音数据。本申请可应用于金融科技、医疗健康养老等业务场景中,通过基于提示编码器对文本提示词进行特征提取,将说话人风格特征输入声学模型进行语音生成,使得生成的语音数据与文本提示词更加一致,提升语音合成的适用性。
技术关键词
文本内容特征
信息适配器
BERT模型
语音编码器
风格
融合特征
特征提取模块
数据
样本
计算机设备
可读存储介质
存储计算机程序
医疗健康
解码器
处理器
密度
网络