基于多模态语音特征融合的数字人语音合成方法及系统

正文

推荐专利

申请号：CN202511310001

申请日期：2025-09-15

公开号：CN120833777B

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于多模态语音特征融合的数字人语音合成方法及系统，该方法通过特征级联和多头模态交互注意力机制对多模态特征进行了加权融合，不仅仅通过特征拼接级联的方式实现模态融合，而且通过多头模态交互注意力机制实现了不同模态特征之间内在关联的显示建模，实现了多模态特征之间的深度交互融合，便于实现细粒度的声学特征控制，使模型可独立控制不同维度的声学参数，可以显著提升合成语音的自然度和个性化。

技术关键词

多模态语音交互注意力节奏特征声纹特征语音编码器短时特征声学特征文本音频生成时序数据样本级联机制多模态特征融合模板韵律模式

系统为您推荐了相关专利信息

一种联合声纹耳纹特征的轻量化身份识别方法

身份识别方法预训练模型融合特征概率线性判别分析回声

一种防外破电缆标桩装置及使用方法

电缆标桩通信模块声纹特征多麦克风阵列高亮度LED灯珠

一种具有多维度稳定结构的音视频布控球

布控球壳体复位机构声纹特征识别推板

应用于重载铁路中牵引变压器的环境噪声抑制方法、装置、设备、存储介质和程序产品

牵引变压器声纹特征环境噪声抑制方法滤波器降噪模型

虚拟人物的服装渲染方法、装置、设备及存储介质

服装渲染方法图像解码器语义标记

基于多模态语音特征融合的数字人语音合成方法及系统

站点导航

APP 下载