基于韵律预测的情感语音转换方法、装置、设备及介质

正文

推荐专利

申请号：CN202411387283

申请日期：2024-09-30

公开号：CN119207371A

公开日期：2024-12-27

类型：发明专利

摘要

本发明涉及人工智能技术领域和金融科技领域，公开了一种基于韵律预测的情感语音转换方法，通过提取输入的文本数据和源音频数据中的音素序列、声学特征和情感维度表示，利用文本编码器提取语言信息，基于语言信息和情感维度表示生成帧级韵律变化和文本韵律表示。结合说话人特征和情感维度表示生成声学韵律表示，通过对齐文本韵律表示和声学韵律表示计算对齐损失，联合训练韵律预测模块和声学建模模块，生成综合韵律表示，最终生成转换后的语音波形并通过判别器评估，基于综合损失优化各模块参数，生成目标情感语音。本发明通过隐式建模实现了对韵律细粒度的精准控制，避免了训练与运行时不匹配的问题，从而大幅提高了语音的自然度和情感丰富度。

技术关键词

韵律预测情感语音转换方法声学特征文本编码器语音转换装置波形节奏特征音频特征提取模块情感识别模型数据短时傅里叶变换融合特征序列高层次计算机设备

系统为您推荐了相关专利信息

一种基于强化学习优化的多模态道路变化检测方法

变化检测方法自然语言文本特征向量语义视觉特征

中文艺术海报生成方法、装置、计算机设备及存储介质

中文文本海报生成方法文本行风格融合特征

人脸信息处理方法、装置、电子设备、存储介质及产品

人脸信息处理方法语音识别模型节点生成向量声学特征

一种图像生成方法、装置、存储介质及电子设备

图像生成模型动态门控信息编码语义图像生成方法

基于深度学习的VF值多模态预测方法及系统

眼科模型模态预测方法令牌文本编码器图像编码器

基于韵律预测的情感语音转换方法、装置、设备及介质

站点导航

APP 下载