基于多模态语音特征融合的数字人语音合成方法及系统

AITNT
正文
推荐专利
基于多模态语音特征融合的数字人语音合成方法及系统
申请号:CN202511310001
申请日期:2025-09-15
公开号:CN120833777B
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于多模态语音特征融合的数字人语音合成方法及系统,该方法通过特征级联和多头模态交互注意力机制对多模态特征进行了加权融合,不仅仅通过特征拼接级联的方式实现模态融合,而且通过多头模态交互注意力机制实现了不同模态特征之间内在关联的显示建模,实现了多模态特征之间的深度交互融合,便于实现细粒度的声学特征控制,使模型可独立控制不同维度的声学参数,可以显著提升合成语音的自然度和个性化。
技术关键词
多模态语音 交互注意力 节奏特征 声纹特征 语音编码器 短时特征 声学特征 文本 音频 生成时序数据 样本 级联 机制 多模态特征融合 模板 韵律模式
系统为您推荐了相关专利信息
1
一种联合声纹耳纹特征的轻量化身份识别方法
身份识别方法 预训练模型 融合特征 概率线性判别分析 回声
2
一种防外破电缆标桩装置及使用方法
电缆标桩 通信模块 声纹特征 多麦克风阵列 高亮度LED灯珠
3
一种具有多维度稳定结构的音视频布控球
布控球 壳体 复位机构 声纹特征识别 推板
4
应用于重载铁路中牵引变压器的环境噪声抑制方法、装置、设备、存储介质和程序产品
牵引变压器 声纹特征 环境噪声抑制方法 滤波器 降噪模型
5
虚拟人物的服装渲染方法、装置、设备及存储介质
服装 渲染方法 图像解码器 语义 标记
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号