基于文本提示词的语音合成方法、装置、设备和存储介质

正文

推荐专利

申请号：CN202510499687

申请日期：2025-04-18

公开号：CN120279886A

公开日期：2025-07-08

类型：发明专利

摘要

本申请涉及语音合成领域，涉及一种基于文本提示词的语音合成方法、装置、设备和介质，该方法包括：获取待语音合成的目标文本内容；获取目标文本内容对应的文本提示词，文本提示词包括说话人风格的描述信息；基于预设的提示编码器，对目标文本内容进行特征提取，获得文本内容特征；基于提示编码器，对文本提示词进行特征提取，得到说话人风格特征；将文本内容特征与说话人风格特征输入预设的声学模型进行语音生成，得到目标语音数据。本申请可应用于金融科技、医疗健康养老等业务场景中，通过基于提示编码器对文本提示词进行特征提取，将说话人风格特征输入声学模型进行语音生成，使得生成的语音数据与文本提示词更加一致，提升语音合成的适用性。

技术关键词

文本内容特征信息适配器 BERT模型语音编码器风格融合特征特征提取模块数据样本计算机设备可读存储介质存储计算机程序医疗健康解码器处理器密度网络

基于文本提示词的语音合成方法、装置、设备和存储介质

站点导航

APP 下载