摘要
本发明公开了一种实时交互的语音克隆方法、装置、设备和介质。本发明所述语音克隆方法直接基于表达用户交互意图的语音数据作为训练语音克隆模型的训练样本数据,无需事先额外录制用户的源音频数据来训练语音克隆模型,提高了语音交互的实时性,且可以实时对语音克隆模型的模型参数进行调整,可提高语音克隆模型的克隆质量和效率。此外,采用梅尔频率倒谱系数声纹特征提取模型结合生成对抗网络模型实现语音克隆,有利于提高语音克隆的质量,提高语交互的对话流畅性。因此,本发明所述音克隆方法,可以在实现与用户个性化语音交互的同时,提高语音交互的实时性,从而确保与用户的对话流畅性,进而提高了用户语音交互的体验舒适度。
技术关键词
声纹特征
特征提取模型
克隆方法
音频放大器
意图
梅尔频率倒谱系数
对话管理器
融合特征
表达用户交互
文本
生成对抗网络模型
麦克风
随机噪声
语音交互模块
个性化语音
训练样本数据
离散余弦变换
特征提取模块
系统为您推荐了相关专利信息
人脸特征
关键词特征
图像语义理解
对话方法
输入模块
多模态特征
性能监控
融合特征
注意力
计算机可读指令
环境检测方法
畜牧养殖舍
MFCC特征
动物体表温度
红外热成像装置