一种多模态融合驱动下情感感知增强的TTS语音合成方法

正文

推荐专利

申请号：CN202510980372

申请日期：2025-07-16

公开号：CN120766652A

公开日期：2025-10-10

类型：发明专利

摘要

本申请提供了一种多模态融合驱动下情感感知增强的TTS语音合成方法，包括如下步骤：S1：进行多模态数据的采集和预处理，其中，多模态数据包括文本数据、语音数据、面部表情数据；S2：情感特征提取与分析；S3：情感感知语音合成模型训练；S4：语音合成与后处理；S5：进行模型评估与优化；本发明通过采集和分析文本、语音、面部表情等多模态数据，能够更全面、准确地捕捉情感特征，多模态融合网络与协同注意力机制的运用，充分挖掘了不同模态间的互补信息，使得合成语音的情感表达更贴近真实情感，极大地提升了情感感知的精准度。

技术关键词

生成语音多模态情感类别自然语言文本语音特征深度网络模型情感分类器双向长短期记忆网络注意力机制情感特征多层感知器面部自动语音识别系统数据三维卷积神经网络语义解析技术频谱特征

系统为您推荐了相关专利信息

器械分割方法、装置、设备、存储介质及程序产品

器械类别分割方法非暂态计算机可读存储介质语音特征提取语音编码器

一种整合型多模态文化资源智能数据治理与管理系统

整合型管理系统多模态命名实体识别多分支卷积神经网络

基于图注意力网络的肠道菌群与肥胖个性化诊断方法

个性化健康建议诊断方法加权无向图网络节点特征

基于多模态分子光谱特征重组的道地药材产地判别方法

判别方法卷积神经网络模型药材产地中药材饮片多模态

一种基于机器学习算法的闸门开度控制方法及系统

开度控制方法机器学习算法水文气象多模态数据采集

一种多模态融合驱动下情感感知增强的TTS语音合成方法

站点导航

APP 下载