摘要
本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品,该方法包括:提取待处理文本的文本特征,并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系,对该场景图像特征进行映射处理,得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征,生成与待处理文本相对应,且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素,在能传达预期信息的同时,还能准确反映场景图像所对应的场景,使得生成的语音更具沉浸感和真实感,在一定程度上提高了语音生成的效果。
技术关键词
声学特征
语音生成模型
训练场景
生成语音
预测特征
语音生成方法
机器学习模型
图像
变换文本
场景类别
语音信号特征
音效
参数
数据
语音类别
发音
计算机程序产品
系统为您推荐了相关专利信息
声学特征
水下声呐
特征融合方法
特征融合系统
特征融合网络
超声波扫描数据
空间分布信息
复合板
应力场
声学特征
变化检测方法
预测特征
变化检测模型
上采样
编码器