一种高表现力歌唱声音合成模型训练方法、合成方法及装置

AITNT
正文
推荐专利
一种高表现力歌唱声音合成模型训练方法、合成方法及装置
申请号:CN202410940016
申请日期:2024-07-15
公开号:CN119049445B
公开日期:2025-04-01
类型:发明专利
摘要
本发明提供一种高表现力歌唱声音合成模型训练方法、合成方法及装置,获取歌词文本以及由真实歌声预测得到的乐谱序列;将歌词文本转换为音素信息,从歌声音频数据中提取歌声的物理信息并分析,得到强度信息;将音素信息和乐谱序列的属性信息输入文本编码器生成文本嵌入序列,由时长预测器确定每个字的持续时长,将文本嵌入序列和持续时长输入长度约束器生成语音表征;将语音表征输入基频解码器和梅尔解码器生成基频和梅尔谱;将基频、梅尔谱和语音表征相加得到混合嵌入向量,将混合嵌入向量输入Transformer和连续语音单元表征模块生成连续语音单元向量,由声码器合成预测歌声。本发明提供的方法对各属性进行细粒度建模,避免耦合,合成高质量歌声。
技术关键词
模型训练方法 文本编码器 信号处理模块 谐波 解码器 序列 生成语音 声码器 强度 计算机程序产品 周期性 音频 物理 可读存储介质 处理器 数据 指令
系统为您推荐了相关专利信息
1
基于大脑EEG信号的高保真3D图像重建方法
图像生成模型 联合损失函数 图像重建方法 图像解码器 编码器
2
一种基于图异常检测的多渠道数据监控范围调整方法
节点 重构误差 自动编码器 邻居 融合注意力机制
3
一种催缴信息确定方法、模型训练方法及停车费管理系统
指数 模型训练方法 生成训练样本 管理系统 XGBoost模型
4
一种模糊图像的增强方法、装置、电子设备及存储介质
像素点 融合特征 上采样 图像增强模型 掩码矩阵
5
一种从腹腔镜手术图像获取长文本描述的生成与评估方法
视觉特征 腹腔镜手术 文本 腹腔镜图像 解码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号