摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种基于韵律预测的情感语音转换方法,通过提取输入的文本数据和源音频数据中的音素序列、声学特征和情感维度表示,利用文本编码器提取语言信息,基于语言信息和情感维度表示生成帧级韵律变化和文本韵律表示。结合说话人特征和情感维度表示生成声学韵律表示,通过对齐文本韵律表示和声学韵律表示计算对齐损失,联合训练韵律预测模块和声学建模模块,生成综合韵律表示,最终生成转换后的语音波形并通过判别器评估,基于综合损失优化各模块参数,生成目标情感语音。本发明通过隐式建模实现了对韵律细粒度的精准控制,避免了训练与运行时不匹配的问题,从而大幅提高了语音的自然度和情感丰富度。
技术关键词
韵律预测
情感语音转换方法
声学特征
文本编码器
语音转换装置
波形
节奏特征
音频
特征提取模块
情感识别模型
数据
短时傅里叶变换
融合特征
序列
高层次
计算机设备
系统为您推荐了相关专利信息
变化检测方法
自然语言
文本特征向量
语义
视觉特征
人脸信息处理方法
语音识别模型
节点
生成向量
声学特征
图像生成模型
动态门控
信息编码
语义
图像生成方法
眼科模型
模态预测方法
令牌
文本编码器
图像编码器