摘要
本申请实施例提供了一种语音合成模型训练方法和装置、电子设备及存储介质,属于语音合成技术领域,适用于金融科技领域。该方法包括:获取音视频样本数据;对音视频样本数据进行语音提取,得到语音数据;对语音数据进行音频文本识别,得到语音文本;对语音数据进行音频属性识别,得到音频属性;基于多种音频属性,对音视频样本数据进行音频属性描述,得到多个单属性描述文本,其中,单属性描述文本用于描述音视频样本数据的其中一种音频属性;基于语音文本,对单属性描述文本进行实例化处理,得到语音合成样本数据;基于语音合成样本数据,对预设的语音合成模型进行模型训练。本申请实施例能够提高语音合成模型训练的准确率。
技术关键词
人脸性别
模型训练方法
人脸属性
样本
数据
文本识别
对音视频
音频识别模块
年龄
电子设备
模型训练装置
语音识别模块
模型训练模块
可读存储介质
图像
系统为您推荐了相关专利信息
声呐
图像识别方法
编码器结构
图像识别系统
图像特征提取
语音情绪分类模型
标签
多模态
数据
融合情感特征
安检仪
健康管理方法
注意力机制
强化学习算法
子系统
货运卡车
车辆运动状态
环境感知信息
运输系统
车载主机单元
竞价系统
合规性
预测模型训练
访问控制单元
数据分析单元