基于深度学习的用户音色克隆与语音合成方法及装置

正文

推荐专利

申请号：CN202510532836

申请日期：2025-04-25

公开号：CN120340457A

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了基于深度学习的用户音色克隆与语音合成方法及装置，涉及语音识别应用技术领域，包括：采集用户的语音数据；从所述语音数据中提取与用户对应的音色特征；采用迁移学习技术训练个性化的音色模型，得到训练好的音色模型；获取需要朗读的绘本内容，提取所述绘本内容中包含情感及节奏关键信息；根据提取的所述绘本内容中包含情感及节奏关键信息，动态调整语音合成的各播放参数；将需要朗读的绘本内容输入至已训练好的音色模型进行语音合成，并结合所述调整好的语音合成的各播放参数，对合成后的语音进行调整后输出。本发明能够根据具体用户的音色特征进行个性化克隆，提供更加自然、逼真的语音合成效果，为用户的使用提供了方便。

技术关键词

音色特征语音迁移学习技术深度学习算法非临时性计算机可读存储介质数据参数动态模型训练模块文本特征提取模块电子设备目录智能终端程序存储器麦克风处理器账户

系统为您推荐了相关专利信息

基于大语言模型的双重预防智能交互系统

预防智能大语言模型交互系统知识库管理生成答案

文本数据生成方法、装置、设备、介质和程序产品

梅尔频率倒谱系数生成特征向量文本数据生成方法语音动态解码

一种用于多模态大模型预训练的动态数据增强方法

模型预训练语音播放速度大语言模型多模态数据融合动态

一种语音信号处理方法、装置及设备

语音信号处理方法扬声器数字麦克风声学回声消除器音频设备

模型训练方法、服务器和计算机可读存储介质

大语言模型语音数据接口列表

基于深度学习的用户音色克隆与语音合成方法及装置

站点导航

APP 下载