一种基于情感增强的语音克隆方法、装置及相关介质

正文

推荐专利

申请号：CN202511043473

申请日期：2025-07-28

公开号：CN120599998A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了一种基于情感增强的语音克隆方法、装置及相关介质，该方法包括分别获取参考音频和与所述参考音频对应的预测文本；分别对所述参考音频和预测文本进行预处理，以生成用于特征提取的标准化音频数据；将所述标准化音频数据输入至情感增强模块中，以通过多轮特征融合与自回归生成机制，生成与目标语音风格相匹配的声学特征；将所述声学特征输入至语音合成模块中进行解码处理，输出预测语音。本发明通过通过引入情感增强模块，实现在声学特征生成过程中对说话人情绪风格的精准建模，从而显著提升合成语音的情感拟真度与个性还原能力。

技术关键词

克隆方法声学特征语音特征提取模型情感识别模型文本生成机制注意力机制词语语义向量风格音频处理单元数据卷积编码器模块可读存储介质分段采样点

系统为您推荐了相关专利信息

基于AI和语音识别的房车设备无线智能控制方法和系统

无线智能控制方法房车设备梅尔频率倒谱系数双向注意力机制人工智能决策

煤矿井下机器人巡检人机交互平台

人机交互平台机器人巡检煤矿井下矩阵传感器缓冲组件

一种基于视觉解算的道路转向提示算法及系统

道路转向提示事件相机计算机视觉系统采集周围环境语音提示模块

一种基于台球桌的智能交互方法、装置及智能台球桌

台球桌面智能交互方法智能台球桌附属设备摆放机构

车载装置和包括该车载装置的车辆

车载装置无线通信模块人机交互模块 FM调频调频设备

一种基于情感增强的语音克隆方法、装置及相关介质

站点导航

APP 下载