基于多模态情感融合的端到端语音合成方法、装置和设备

正文

推荐专利

申请号：CN202510688331

申请日期：2025-05-27

公开号：CN120636363A

公开日期：2025-09-12

类型：发明专利

摘要

本申请实施例提供一种基于多模态情感融合的端到端语音合成方法、装置和设备。应用于语音合成技术领域，该方法通过文本编码器提取文本特征；通过声学编码器提声学特征；利用双重注意力机制动态分配文本特征和声学特征的交互权重，增强情感信息与语音信息的协同性；利用双向长短期记忆网络、时间卷积网络、自注意力机制和指数平滑技术生成情感强度曲线；将融合特征和情感强度曲线输入到方差适配器进行特征增强与扩充，输出到梅尔解码器实现并行解码，得到合成语音的梅尔频谱；使用声码器将梅尔频谱特征映射为声音波形，生成最终的情感语音，提高了生成语音的情感表现力和自然度，并能够根据不同应用场景调整情感强度。

技术关键词

声学特征双向长短期记忆网络语音注意力机制融合特征时间卷积网络计算机执行指令文本编码器平滑技术多模态声码器控制模块强度音频适配器矩阵计算机存储介质

系统为您推荐了相关专利信息

一种基于高光谱成像的鱼类新型急性败血症检测系统

光谱成像高光谱图像数据数据采集模块空间结构光谱特征提取

一种台风强度预报方法、装置及设备

台风强度预报方法数据因子注意力机制气象

文本到图像生成方法、装置、设备及介质

姿态特征融合特征编码策略融合策略图像生成方法

一种沉浸式Ai功能舱人机交互系统

人机交互系统语音识别模块手势控制模块中央控制单元隐私保护技术

异构对象匹配关系自动生成方法及智能化通用网关软件

自动生成方法异构对象关系交叉注意力机制

基于多模态情感融合的端到端语音合成方法、装置和设备

站点导航

APP 下载