摘要
本发明提供在一种基于端云融合的实时声音复刻方法及系统,方法包括:云端基于AI大模型对用户少量语音数据进行实时音色复刻与语音合成;用户注册语音音频数据时收集音色样本,大模型同步生成预设文本的用户音色语音数据,用作端侧语音合成模型的微调训练数据;利用预设文本的用户音色语音数据和用户注册的语音音频数据对端侧语音合成模型迁移微调训练,适配用户个性化音色,保证端侧语音合成模型高质量输出,实现个性化声音复刻;将完成训练的端侧语音合成模型下发至用户设备,在无网或弱网环境下独立完成语音复刻。本发明通过用户音色数据自动生成和模型自适应微调,将用户的音色微调后部署至端侧,实现端云协同的高质量、高适应性声音复刻。
技术关键词
语音音频数据
预训练模型
声学特征
文本
个性化语音特征
语音克隆技术
云端
样本
计算机设备
端云协同
深度学习算法
参数
音色特征
生成高度
生成语音
处理器
生成用户
系统为您推荐了相关专利信息
图像特征集
三维模型编辑方法
融合特征
文本
计算机执行指令