摘要
本发明公开了一种情感表达的语音克隆方法、装置、设备和介质。所述语音克隆方法包括:获取可以捕捉到更多用户情感信息的用户语音信号,对用户语音信号进行包含噪声去除的预处理,提取预处理后的语音信号的声纹特征,并基于声纹特征和声纹克隆模型进行声纹克隆,以及根据用户语音信号对用户语音信号的情感类型进行分析,并根据分析结果对克隆声纹进行调整,得到更能表达用户情感的目标声纹;最后将目标声纹转换成目标语音信号,并以大于80dB的音量输出。因此,所述语音克隆方法可以较准确捕捉和重现用户声音的情感语调,实现用户复杂的情感表达,使得克隆语音更具自然和生动性,可适应于需要细腻情感表达的场景。
技术关键词
特征提取模型
语音
克隆方法
声纹特征
指向性麦克风
信号
深度神经网络模型
支持向量机算法
线性预测编码
径向基核函数
频率
采样率
特征提取模块
特征值
存储器
噪声
处理器
输出模块
分析模块
系统为您推荐了相关专利信息
矩形箱体
施工升降机控制器
施工升降机轿厢
人脸识别设备
集装箱改造
导航辅助方法
头戴式摄像设备
场景
实时视频流
神经网络推理
智能生成系统
多模态
输入模块
对话状态跟踪器
子模块
车辆阻拦装置
车辆识别方法
语音播报系统
图像识别处理器
新能源车