摘要
本发明公开了基于深度学习的用户音色克隆与语音合成方法及装置,涉及语音识别应用技术领域,包括:采集用户的语音数据;从所述语音数据中提取与用户对应的音色特征;采用迁移学习技术训练个性化的音色模型,得到训练好的音色模型;获取需要朗读的绘本内容,提取所述绘本内容中包含情感及节奏关键信息;根据提取的所述绘本内容中包含情感及节奏关键信息,动态调整语音合成的各播放参数;将需要朗读的绘本内容输入至已训练好的音色模型进行语音合成,并结合所述调整好的语音合成的各播放参数,对合成后的语音进行调整后输出。本发明能够根据具体用户的音色特征进行个性化克隆,提供更加自然、逼真的语音合成效果,为用户的使用提供了方便。
技术关键词
音色特征
语音
迁移学习技术
深度学习算法
非临时性计算机可读存储介质
数据
参数
动态
模型训练模块
文本
特征提取模块
电子设备
目录
智能终端
程序
存储器
麦克风
处理器
账户
系统为您推荐了相关专利信息
预防智能
大语言模型
交互系统
知识库管理
生成答案
梅尔频率倒谱系数
生成特征向量
文本数据生成方法
语音
动态解码
模型预训练
语音播放速度
大语言模型
多模态数据融合
动态
语音信号处理方法
扬声器
数字麦克风
声学回声消除器
音频设备