基于韵律预测的情感语音转换方法、装置、设备及介质

AITNT
正文
推荐专利
基于韵律预测的情感语音转换方法、装置、设备及介质
申请号:CN202411387283
申请日期:2024-09-30
公开号:CN119207371A
公开日期:2024-12-27
类型:发明专利
摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种基于韵律预测的情感语音转换方法,通过提取输入的文本数据和源音频数据中的音素序列、声学特征和情感维度表示,利用文本编码器提取语言信息,基于语言信息和情感维度表示生成帧级韵律变化和文本韵律表示。结合说话人特征和情感维度表示生成声学韵律表示,通过对齐文本韵律表示和声学韵律表示计算对齐损失,联合训练韵律预测模块和声学建模模块,生成综合韵律表示,最终生成转换后的语音波形并通过判别器评估,基于综合损失优化各模块参数,生成目标情感语音。本发明通过隐式建模实现了对韵律细粒度的精准控制,避免了训练与运行时不匹配的问题,从而大幅提高了语音的自然度和情感丰富度。
技术关键词
韵律预测 情感语音转换方法 声学特征 文本编码器 语音转换装置 波形 节奏特征 音频 特征提取模块 情感识别模型 数据 短时傅里叶变换 融合特征 序列 高层次 计算机设备
系统为您推荐了相关专利信息
1
一种基于强化学习优化的多模态道路变化检测方法
变化检测方法 自然语言 文本特征向量 语义 视觉特征
2
中文艺术海报生成方法、装置、计算机设备及存储介质
中文文本 海报生成方法 文本行 风格 融合特征
3
人脸信息处理方法、装置、电子设备、存储介质及产品
人脸信息处理方法 语音识别模型 节点 生成向量 声学特征
4
一种图像生成方法、装置、存储介质及电子设备
图像生成模型 动态门控 信息编码 语义 图像生成方法
5
基于深度学习的VF值多模态预测方法及系统
眼科模型 模态预测方法 令牌 文本编码器 图像编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号