摘要
本申请属于人工智能技术领域,具体涉及一种语音生成方法、语音生成装置、计算机可读介质、电子设备以及计算机程序产品。该方法包括:获取自然语言指令,所述自然语言指令用于以自然语言描述语音的呈现效果;获取与所述自然语言指令具有相似语音呈现效果的样本对,所述样本对包括音频样本和文本样本,所述文本样本用于描述所述音频样本的语音呈现效果;将所述自然语言指令与所述样本对组合,得到多模态提示词;根据所述多模态提示词生成语音。本申请可以提升语音生成的控制精度和灵活性。
技术关键词
语音生成方法
自然语言
样本
去噪模型
生成语音
多模态
指令
频谱特征
风格
格式化
文本
参数
噪声预测
预测特征
计算机程序产品
语义向量
音频
适配器
系统为您推荐了相关专利信息
健康状态评估方法
变电站配电设备
变电站设备
综合健康指数
预训练模型
模式预测方法
混合神经网络模型
分区
局部纹理特征
视频编码设备
泄漏检测方法
供水管道
生成样本数据
噪声
管道泄漏检测