语音生成方法和装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202411506072

申请日期：2024-10-25

公开号：CN119339707B

公开日期：2025-11-25

类型：发明专利

摘要

本申请实施例提供了一种语音生成方法和装置、计算机设备及存储介质，属于人工智能技术领域。该方法包括：通过原始语音转换模型对原始语音数据进行语音特征提取得到参考语音特征和选定语音特征，参考语音特征具有目标对象声音风格；将参考语音特征和选定语音特征进行相似度度量得到特征相似度数据；根据特征相似度数据对选定语音特征筛选得到目标语音特征；其中，目标语音特征不具有目标对象声音风格；根据目标语音特征、参考语音特征和训练文本对原始语音生成模型进行模型训练得到目标语音生成模型；通过目标语音生成模型和目标文本生成目标语音数据。本申请实施例能够提高语音生成的稳定性，并减少参考音频的依赖，提高语音生成的灵活性。

技术关键词

语音生成模型语音特征提取语音生成方法语音编码器文本编码器语义解析信息数据对象识别计算机设备风格特征提取器度量模型训练模块可读存储介质分词

系统为您推荐了相关专利信息

一种基于图网络引导的医学图像信息对齐方法、设备及介质

医学图像信息对齐方法交叉注意力机制节点图像编码器

基于音频提示的语音生成方法、装置、设备及介质

语音生成方法语音生成模型多层次特征提取文本音频

基于多模态大模型微调的证件伪造识别方法及系统

证件图片伪造识别方法多模态深度学习网络基础

一种基于多模态提示的遥感图像指代分割方法及系统

多模态文本编码器分割方法图像编码器解码器

一种基于幻觉增强的跨模态检索模型优化系统及方法

文本特征向量图像特征向量模型优化系统文本编码器样本

语音生成方法和装置、计算机设备及存储介质

站点导航

APP 下载