摘要
本发明公开了一种基于多模态语音特征融合的数字人语音合成方法及系统,该方法通过特征级联和多头模态交互注意力机制对多模态特征进行了加权融合,不仅仅通过特征拼接级联的方式实现模态融合,而且通过多头模态交互注意力机制实现了不同模态特征之间内在关联的显示建模,实现了多模态特征之间的深度交互融合,便于实现细粒度的声学特征控制,使模型可独立控制不同维度的声学参数,可以显著提升合成语音的自然度和个性化。
技术关键词
多模态语音
交互注意力
节奏特征
声纹特征
语音编码器
短时特征
声学特征
文本
音频
生成时序数据
样本
级联
机制
多模态特征融合
模板
韵律模式
系统为您推荐了相关专利信息
身份识别方法
预训练模型
融合特征
概率线性判别分析
回声
电缆标桩
通信模块
声纹特征
多麦克风阵列
高亮度LED灯珠
牵引变压器
声纹特征
环境噪声抑制方法
滤波器
降噪模型