摘要
本申请涉及一种基于BertVits2改进的语音合成方法、系统、计算机设备和存储介质,该方法包括:采集音频数据,通过对音频数据和文本数据进行预处理,并将音频数据和文本数据进行对齐,输入到经过基于Bert Vits2改进的语音合成模型进行训练,得到AI语音合成模型。在模型训练过程中,对模型进了三个方面的改进,包括对注意力机制的改进、位置编码的改进以及前馈神经网络激活函数的改进,其中,对注意力机制的改进可以有效地加速模型的训练和推理速度,而位置编码的改进以及前馈神经网络激活函数的改进可以进一步提升语音合成模型对文本的上下文信息的捕捉能力,以及神经网络的学习能力,从而提升语音合成模型的性能和提高生成音频的质量。
技术关键词
前馈神经网络
音频
分块
文本
线性单元
数据
信息编码
矩阵
模型训练模块
计算机设备
对齐模块
注意力机制
代表
AI语音
处理器
展开式
系统为您推荐了相关专利信息
推荐方法
计算机推荐算法技术
注意力机制
农产品信息
个性化排名方法
车载通信方法
文本
多模态
计算机程序指令
手部特征
抑郁识别系统
特征提取模块
注意力
视频特征提取
多模态特征融合