一种多模态情感驱动文字转语音的方法、系统及设备

正文

推荐专利

申请号：CN202510140395

申请日期：2025-02-08

公开号：CN120496496A

公开日期：2025-08-15

类型：发明专利

摘要

本发明提出了一种多模态情感驱动文字转语音的方法、系统及设备，包括如下步骤：S1，输入待处理文本，进行情感分析，识别所述待处理文本的情感特征；S2，输入用户提供的语音数据，提取所述语音数据的个性化语音特征；S3，融合所述情感特征和所述个性化语音特征，生成联合特征向量，所述联合特征向量嵌入深度学习模型进行语音合成；S4，输入待处理文本和联合特征向量，通过深度学习模型，生成音频波形；S5，分析待处理文本的语境，调整和优化音频波形，得到最终语音结果；通过将多模态情感分析与用户情绪状态相结合，利用深度学习模型实现个性化语音定制，语境理解模块能够根据上下文信息智能调整语音特征，提高了语音的自然度和适应性。

技术关键词

个性化语音特征情感特征深度学习模型状态监测单元文本分析单元语音特征提取数据采集单元多模态多任务学习方法特征提取模块波形情绪状态信息处理器执行指令音频迁移学习技术个性化特征

系统为您推荐了相关专利信息

一种基于流式计算的神经网络加速装置和方法

神经网络加速装置模块神经网络加速方法流水线数据传输延迟

基于多方法融合的互联网和中医护理服务人才综合评价系统

综合评价系统评价指标体系动态网络互联网

一种基于视觉语言模型的自动化动作轨迹标注系统及方法

关键帧场景变化检测标注系统标注方法结构化自然语言

一种对培养植物幼苗的玻璃瓶内部进行微生物检测的方法

玻璃瓶瓶身图像深度学习模型真菌

基于拼音及声纹编码的语音通信方法及低功耗语音终端

通信转换方法拼音语音识别模块无线通信模块语音通信方法

一种多模态情感驱动文字转语音的方法、系统及设备

站点导航

APP 下载