语音生成模型的构建方法、装置、电子设备及可读介质

AITNT
正文
推荐专利
语音生成模型的构建方法、装置、电子设备及可读介质
申请号:CN202411910967
申请日期:2024-12-23
公开号:CN119920230B
公开日期:2025-10-28
类型:发明专利
摘要
本发明提供语音生成模型的构建方法、装置、电子设备及可读介质,将预设的训练语音输入预设向量量化器,得到训练语音的训练语义离散特征;训练语义离散特征包含了训练语音的语言风格;获取训练语音对应的训练文本,并利用训练文本以及训练语义离散特征训练预设的自回归语音模型,得到语义离散特征生成模型;获取训练语义离散特征对应的训练梅尔频谱图;利用训练语义离散特征以及训练梅尔频谱图训练预设的最优传输条件流匹配模型,得到梅尔频谱图生成模型;基于梅尔频谱图生成模型和语义离散特征生成模型,构建语音生成模型。实现了通过单一语音生成模型实现多种语言风格的语音或方言语音生成,降低了标注成本,减轻了音频生成中产生的机械感。
技术关键词
离散特征 语音生成模型 语义 文本 模型训练模块 风格 通信接口 电子设备 处理器 路由器 存储器 音频 波形 介质 频率 计算机 程序 指令
系统为您推荐了相关专利信息
1
结合深度学习和协同过滤的推荐方法
协同过滤算法 深度学习算法 标签体系 标签特征 融合协同过滤
2
实体链接处理方法、设备、存储介质及程序产品
实体 自然语言 样本 计算机程序代码 机器可读指令
3
基于辅助意见的零样本视频质量评价方法
视频 评价方法 计算机程序指令 文本 样本
4
一种基于图文特征融合的图像描述系统及方法
特征提取模块 图像编码器 图文 语义特征 网格特征提取
5
基于法律要素的语义句法融合违规预测方法
强化学习代理 节点特征 语义 Sigmoid函数 加权特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号