摘要
本发明公开了一种基于情感增强的语音克隆方法、装置及相关介质,该方法包括分别获取参考音频和与所述参考音频对应的预测文本;分别对所述参考音频和预测文本进行预处理,以生成用于特征提取的标准化音频数据;将所述标准化音频数据输入至情感增强模块中,以通过多轮特征融合与自回归生成机制,生成与目标语音风格相匹配的声学特征;将所述声学特征输入至语音合成模块中进行解码处理,输出预测语音。本发明通过通过引入情感增强模块,实现在声学特征生成过程中对说话人情绪风格的精准建模,从而显著提升合成语音的情感拟真度与个性还原能力。
技术关键词
克隆方法
声学特征
语音
特征提取模型
情感识别模型
文本
生成机制
注意力机制
词语
语义向量
风格
音频处理单元
数据
卷积编码器
模块
可读存储介质
分段
采样点
系统为您推荐了相关专利信息
无线智能控制方法
房车设备
梅尔频率倒谱系数
双向注意力机制
人工智能决策
人机交互平台
机器人巡检
煤矿井下
矩阵传感器
缓冲组件
道路转向提示
事件相机
计算机视觉系统
采集周围环境
语音提示模块
台球桌面
智能交互方法
智能台球桌
附属设备
摆放机构
车载装置
无线通信模块
人机交互模块
FM调频
调频设备