摘要
本申请提供了融合视觉信息的语音合成方法、装置、电子设备及介质,包括:基于文本编码器提取出目标文本信息的文本特征;对目标视频信息进行特征提取处理、向量量化编码处理以及交叉注意力处理,确定出目标视频信息中的视频特征;对文本特征以及视频特征进行交叉注意力处理,确定出联合特征;将联合特征输入至预先训练好的语音生成模型,对联合特征进行建模处理生成视频文本特征,再对视频文本特征进行随机韵律预测处理、特征扩充处理以及解码处理,生成目标文本信息所对应的合成语音。通过融合视频中的信息,生成更加富有表现力的语音。这种方法不仅解决了现有技术在情感控制方面的不足,还能够利用少量样本数据实现高质量的语音合成。
技术关键词
语音生成模型
视觉特征
韵律预测
融合视觉
多头注意力机制
情绪特征
视频特征提取
文本编码器
编码机制
机器可读指令
多层感知器
神经网络模型
随机噪声