摘要
本申请公开了基于动态适配的个性化声音克隆方法、装置、设备及介质,涉及语音合成技术领域,包括:基于预设深度神经网络对原始语音样本进行特征提取,以获取多模态语音特征,并进行融合编码,生成声学表征模型;确定待合成文本内容和目标场景模板,并从预设场景模板库中提取目标声学参数,以基于目标声学参数和声学表征模型,针对待合成文本内容进行声学参数调整,生成目标克隆语音;利用多语言语音编码器提取出与语言无关的声学特征,并确定待迁移的目标语言,以及生成对应的文本语料库;基于文本语料库对目标克隆语音进行音素映射与对齐操作,并通过预设生成对抗网络和声学特征进行目标克隆语音的跨语言迁移操作,生成目标语言语音。
技术关键词
声音克隆方法
多模态语音
声学特征
节奏特征
文本
生成对抗网络
深度神经网络
声纹特征
克隆系统
样本
模板
动态时间规整算法
语音编码器
场景
参数
生成语音
语音特征
分割算法
系统为您推荐了相关专利信息
大语言模型
预训练语言模型
问答方法
文本编码器
生成方法
数据分类系统
萤火虫算法
时间序列特征
特征提取模块
分类器