语音生成模型的构建方法、装置、电子设备及可读介质

AITNT
正文
推荐专利
语音生成模型的构建方法、装置、电子设备及可读介质
申请号:CN202411910967
申请日期:2024-12-23
公开号:CN119920230B
公开日期:2025-10-28
类型:发明专利
摘要
本发明提供语音生成模型的构建方法、装置、电子设备及可读介质,将预设的训练语音输入预设向量量化器,得到训练语音的训练语义离散特征;训练语义离散特征包含了训练语音的语言风格;获取训练语音对应的训练文本,并利用训练文本以及训练语义离散特征训练预设的自回归语音模型,得到语义离散特征生成模型;获取训练语义离散特征对应的训练梅尔频谱图;利用训练语义离散特征以及训练梅尔频谱图训练预设的最优传输条件流匹配模型,得到梅尔频谱图生成模型;基于梅尔频谱图生成模型和语义离散特征生成模型,构建语音生成模型。实现了通过单一语音生成模型实现多种语言风格的语音或方言语音生成,降低了标注成本,减轻了音频生成中产生的机械感。
技术关键词
离散特征 语音生成模型 语义 文本 模型训练模块 风格 通信接口 电子设备 处理器 路由器 存储器 音频 波形 介质 频率 计算机 程序 指令
系统为您推荐了相关专利信息
1
人机交互模型训练方法、装置和计算机设备
消息 人机交互系统 参数 模型训练方法 标记
2
语音文本的关联方法、装置、电子设备及存储介质
语音 文本 数据 双麦克风阵列 波束成形算法
3
一种基于路由算法的工作流处理方法、系统、设备及介质
语义图谱 数据 基础 生成特征向量 风险
4
一种行为算法研判模型系统
数据收集模块 特征工程 图片 数据处理模块 文本
5
一种行业大模型优化方法、装置、设备及存储介质
模型优化方法 应用程序编程接口 项目 图形处理器 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号