摘要
本申请属于语音生成技术领域,涉及一种语音生成方法、装置、设备及其存储介质,通过获取目标文本序列的文本特征向量序列;获取目标视频帧序列的视觉特征向量序列;输入文本特征向量序列和视觉特征向量序列到跨模态融合层,获得跨模态融合层所输出的特征融合表示;根据特征融合表示获得变体声学模型所输出的声学特征;将所述声学特征输入到预设的声码器中,通过多尺度卷积和上采样处理,生成目标语音波形。实现在语音生成时不仅引入文本特征,还引入视频特征,以跨模态融合特征共同实现语音生成。将该方法应用到金融或者医疗业务智能客服回答,或者服务产品营销介绍场景中,实现了结合视觉上下文信息,生成更加自然真实的语音。
技术关键词
文本特征向量
语音生成方法
声学特征
文本编码器
序列
视频帧
跨模态
重构
计算机可读指令
视觉
波形
视频采集编码器
上下文特征
语音生成技术
声学模型训练
图像全局特征
图像局部特征
注意力机制
系统为您推荐了相关专利信息
迭代计算方法
动力系统
数字孪生模型
刚度
动态啮合力
辐射风险评价方法
核电厂严重事故
风险评价系统
效应
气象