一种语音生成模型的训练方法、装置、设备及介质

AITNT
正文
推荐专利
一种语音生成模型的训练方法、装置、设备及介质
申请号:CN202411519056
申请日期:2024-10-29
公开号:CN119323953B
公开日期:2025-11-21
类型:发明专利
摘要
本申请属于人工智能领域,涉及一种语音生成模型的训练方法,包括:获取目标对象的参考音色频谱、音素信息以及语音频谱;基于参考音色频谱、音素信息以及语音频谱,对预设的初始语音生成模型进行训练,得到模型参数;基于模型参数,分别调整初始语音生成模型的多音色特征提取网络、音素特征提取网络、韵律特征离散化网络、时序对齐模块、注意力融合模块、语音重构解码网络的参数,以构建语音生成模型。本申请还提供一种装置、设备及介质。此外,本申请还涉及区块链技术,语音训练数据和模型参数可存储于区块链中。本申请可以实现音色和韵律信息的解耦,灵活调整音色和韵律信息,以生成具有多样性和灵活性的合成语音。
技术关键词
语音生成模型 特征提取网络 韵律特征 解码网络 音色特征 对齐模块 编码 注意力 重构 计算机可读指令 参数 瓶颈 时序 数据 基准 可读存储介质
系统为您推荐了相关专利信息
1
一种结合大数据与人工智能的股票量化分析方法及系统
量化分析方法 指标 智能订单 风险 信号
2
一种基于机器视觉的烹调设备火候控制系统
火候控制系统 烹调设备 图像采集单元 标签 分区
3
一种基于YOLOv8的水下目标检测方法
注意力机制 检测头 检测网络模型 动态 特征提取网络
4
一种基于长尾分布优化的无人机目标检测方法
多模态特征 特征提取网络 多尺度特征 无人机 深度值
5
基于动态提示信息的缺失模态的多模态图像识别方法
特征提取网络 掌静脉图像 加权特征 图像识别方法 融合特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号