摘要
本申请实施例提供一种基于多模态情感融合的端到端语音合成方法、装置和设备。应用于语音合成技术领域,该方法通过文本编码器提取文本特征;通过声学编码器提声学特征;利用双重注意力机制动态分配文本特征和声学特征的交互权重,增强情感信息与语音信息的协同性;利用双向长短期记忆网络、时间卷积网络、自注意力机制和指数平滑技术生成情感强度曲线;将融合特征和情感强度曲线输入到方差适配器进行特征增强与扩充,输出到梅尔解码器实现并行解码,得到合成语音的梅尔频谱;使用声码器将梅尔频谱特征映射为声音波形,生成最终的情感语音,提高了生成语音的情感表现力和自然度,并能够根据不同应用场景调整情感强度。
技术关键词
声学特征
双向长短期记忆网络
语音
注意力机制
融合特征
时间卷积网络
计算机执行指令
文本编码器
平滑技术
多模态
声码器
控制模块
强度
音频
适配器
矩阵
计算机存储介质
系统为您推荐了相关专利信息
光谱成像
高光谱图像数据
数据采集模块
空间结构
光谱特征提取
姿态特征
融合特征
编码策略
融合策略
图像生成方法
人机交互系统
语音识别模块
手势控制模块
中央控制单元
隐私保护技术