多模态语音驱动实现个性化歌声合成模型训练方法

正文

推荐专利

申请号：CN202510509387

申请日期：2025-04-22

公开号：CN120375806A

公开日期：2025-07-25

类型：发明专利

摘要

本发明涉及语音信号处理技术领域，公开了多模态语音驱动实现个性化歌声合成模型训练方法，方法包括以下步骤：获取多模态输入数据，包括文本、参考音频、语者和情感特征；对数据进行处理得到编码特征；通过冗余感知编码评估并抑制模态间冗余信息；使用信息瓶颈模型压缩编码特征，保留有效信息；融合压缩后的特征生成个性化歌声特征；输入解码模块生成梅尔频谱特征；通过声码器将梅尔频谱转换为音频波形输出。通过声码器将梅尔频谱转换为音频波形输出。该方法能够有效融合多模态数据，提升歌声的个性化与情感表达能力，减少冗余信息干扰，提高歌声合成的质量与效率，最终输出高保真的个性化歌声。

技术关键词

编码特征模型训练方法频谱特征生成特征声码器多模态语音情感特征解码模块冗余度瓶颈神经网络结构语音信号处理技术特征提取模块波形音频特征模型训练系统

系统为您推荐了相关专利信息

一种语言识别模型训练方法、语言识别方法及相关设备

语句识别模型训练方法样本语言识别方法复杂度

一种三级人工湿地循环水养殖系统智能调控方法

循环水养殖系统智能调控方法关键控制参数水质人工湿地

基于PLSA-VQGAN的排水管道图像修复方法

推理网络图像特征提取图像修复方法解码器编码器编码特征

一种混凝土内部缺陷与密实性非破坏性检测方法及系统

混凝土内部缺陷破坏性检测方法三维有限元模型混凝土内部结构振动激励器

一种数据脱敏方法、模型训练方法及AI管理平台

顶点图谱基础数据脱敏方法模型训练方法

多模态语音驱动实现个性化歌声合成模型训练方法

站点导航

APP 下载