基于多模态情感融合的端到端语音合成方法、装置和设备

AITNT
正文
推荐专利
基于多模态情感融合的端到端语音合成方法、装置和设备
申请号:CN202510688331
申请日期:2025-05-27
公开号:CN120636363A
公开日期:2025-09-12
类型:发明专利
摘要
本申请实施例提供一种基于多模态情感融合的端到端语音合成方法、装置和设备。应用于语音合成技术领域,该方法通过文本编码器提取文本特征;通过声学编码器提声学特征;利用双重注意力机制动态分配文本特征和声学特征的交互权重,增强情感信息与语音信息的协同性;利用双向长短期记忆网络、时间卷积网络、自注意力机制和指数平滑技术生成情感强度曲线;将融合特征和情感强度曲线输入到方差适配器进行特征增强与扩充,输出到梅尔解码器实现并行解码,得到合成语音的梅尔频谱;使用声码器将梅尔频谱特征映射为声音波形,生成最终的情感语音,提高了生成语音的情感表现力和自然度,并能够根据不同应用场景调整情感强度。
技术关键词
声学特征 双向长短期记忆网络 语音 注意力机制 融合特征 时间卷积网络 计算机执行指令 文本编码器 平滑技术 多模态 声码器 控制模块 强度 音频 适配器 矩阵 计算机存储介质
系统为您推荐了相关专利信息
1
一种基于高光谱成像的鱼类新型急性败血症检测系统
光谱成像 高光谱图像数据 数据采集模块 空间结构 光谱特征提取
2
一种台风强度预报方法、装置及设备
台风强度预报方法 数据 因子 注意力机制 气象
3
文本到图像生成方法、装置、设备及介质
姿态特征 融合特征 编码策略 融合策略 图像生成方法
4
一种沉浸式Ai功能舱人机交互系统
人机交互系统 语音识别模块 手势控制模块 中央控制单元 隐私保护技术
5
异构对象匹配关系自动生成方法及智能化通用网关软件
自动生成方法 异构 对象 关系 交叉注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号