摘要
本发明提供一种语音合成方法和装置,涉及语音处理技术领域,方法包括:获取目标图像和说话文稿,并将目标图像和说话文稿输入至预训练的语音合成模型,得到目标合成语音;其中,目标图像包含多个视觉信息,目标合成语音包含多个声学特征,一个视觉信息对应至少一个声学特征;语音合成模型为基于多模态数据集进行训练得到,多模态数据集为对目标数据集进行模态增强得到。通过本发明提供的方法,对现有语音数据集进行模态增强构建多模态数据集,解决数据集稀缺的问题;根据静态图像中的视觉信息与语音音频中的声学特征之间的一一对应关系,基于通过多模态数据集训练得到的语音合成模型,使合成的目标合成语音具有更细粒度的语音风格。
技术关键词
语音解码器
声学特征
多模态
数据
图像编码器
转换器
视觉表征学习
非暂态计算机可读存储介质
关键帧
图像生成模型
风格
处理器
计算机程序产品
语音特征
音频
自然语言
存储器
系统为您推荐了相关专利信息
设备特征信息
风险评估模型
节点
风险识别方法
指纹
风速修正方法
模型风洞试验
推力
浮式风机
风机模型试验
分级检测方法
微观结构参数
构建微观结构
特征模板
生成标记信息
算法模块
服务端
转单系统
信息抽取技术
会话历史