摘要
本公开涉及语音合成方法和装置、电子设备、存储介质与程序产品,所述方法包括:获取源视频的源语种字幕文本对应的源语种配音音频,以及源语种字幕文本所翻译成的目标语种字幕文本;利用情绪提取器从源语种配音音频中提取音频情绪特征,音频情绪特征表征源语种配音音频所表达的情绪;将目标语种字幕文本转换成音素序列,并利用文本编码器对音素序列进行编码,得到文本编码特征;将音频情绪特征与文本编码特征进行融合,得到情绪文本特征;利用解码器基于情绪文本特征,生成目标语种音频,所述目标语种音频用于作为源视频在目标语种下的配音音频。由此,能够自动高效地生成带有源配音音频情绪的高质量目标语种音频,成本低且效率高。
技术关键词
情绪特征
文本编码器
编码特征
解码器
双语字幕
音频组
样本
错误率
语音识别技术
非易失性计算机可读存储介质
字符
语义特征
序列
音频特征
数据
情绪识别模型
视频
系统为您推荐了相关专利信息
智能设计方法
文本
生成设计图
生成神经网络
消息传递机制
语义特征
通信网络
解码图像数据
注意力
通信信道