基于Bert Vits2改进的语音合成方法、系统和计算机设备

正文

推荐专利

申请号：CN202411071427

申请日期：2024-08-06

公开号：CN119049449A

公开日期：2024-11-29

类型：发明专利

摘要

本申请涉及一种基于BertVits2改进的语音合成方法、系统、计算机设备和存储介质，该方法包括：采集音频数据，通过对音频数据和文本数据进行预处理，并将音频数据和文本数据进行对齐，输入到经过基于Bert Vits2改进的语音合成模型进行训练，得到AI语音合成模型。在模型训练过程中，对模型进了三个方面的改进，包括对注意力机制的改进、位置编码的改进以及前馈神经网络激活函数的改进，其中，对注意力机制的改进可以有效地加速模型的训练和推理速度，而位置编码的改进以及前馈神经网络激活函数的改进可以进一步提升语音合成模型对文本的上下文信息的捕捉能力，以及神经网络的学习能力，从而提升语音合成模型的性能和提高生成音频的质量。

技术关键词

前馈神经网络音频分块文本线性单元数据信息编码矩阵模型训练模块计算机设备对齐模块注意力机制代表 AI语音处理器展开式

系统为您推荐了相关专利信息

能源智能化治理方法、装置、设备及存储介质

卷积模块数据能源需求量多模态情感分类模型

基于大数据的建筑工程造价数据检验方法、系统及介质

数据检验方法建筑工程造价分词模型表格列表

基于LLaVA大模型跨模态特征融合的农产品推荐方法

推荐方法计算机推荐算法技术注意力机制农产品信息个性化排名方法

一种车载通信方法、装置及电子设备

车载通信方法文本多模态计算机程序指令手部特征

一种基于MFE-CCAGNN模型的多模态抑郁识别系统

抑郁识别系统特征提取模块注意力视频特征提取多模态特征融合

基于Bert Vits2改进的语音合成方法、系统和计算机设备

站点导航

APP 下载