摘要
本发明提供一种音色卡片生成方法、声音克隆方法及3D数字人视频生成方法,涉及声音处理技术领域,通过用户提供的目标音频,得到声音特征、频谱特征和语音离散编码序列,并结合用户提供的音色描述信息,生成目标音频对应的音色卡片,可以实现对目标音频的音频特征以及音色描述信息的关联存储,并可以通过音色描述信息实现对不同目标音频的音频特征的标识和区分。用户在需要驱动3D数字人时,不需要每次驱动都录制音频,可以节约用户的时间成本,减少用户的工作量。而且,该目标音频可以选取外界环境影响以及用户本人状态影响较小时进行录制,进而使目标音频符合处理要求,节约驱动3D数字人时耗费的时间,提高用户体验。
技术关键词
卡片生成方法
声音克隆方法
视频生成方法
频谱特征
文本
声音特征提取
语音
音色特征
序列
信噪比信息
特征提取模型
语句
标记
卡片生成装置
视频生成系统
音频特征
韵律预测
语种识别
系统为您推荐了相关专利信息
智能图像识别
变电站
数字式电表
阅读器
全局特征融合
日志分类模型
文本特征向量
日志分类方法
标签文本
停用词表