基于Bert Vits2改进的语音合成方法、系统和计算机设备

AITNT
正文
推荐专利
基于Bert Vits2改进的语音合成方法、系统和计算机设备
申请号:CN202411071427
申请日期:2024-08-06
公开号:CN119049449A
公开日期:2024-11-29
类型:发明专利
摘要
本申请涉及一种基于BertVits2改进的语音合成方法、系统、计算机设备和存储介质,该方法包括:采集音频数据,通过对音频数据和文本数据进行预处理,并将音频数据和文本数据进行对齐,输入到经过基于Bert Vits2改进的语音合成模型进行训练,得到AI语音合成模型。在模型训练过程中,对模型进了三个方面的改进,包括对注意力机制的改进、位置编码的改进以及前馈神经网络激活函数的改进,其中,对注意力机制的改进可以有效地加速模型的训练和推理速度,而位置编码的改进以及前馈神经网络激活函数的改进可以进一步提升语音合成模型对文本的上下文信息的捕捉能力,以及神经网络的学习能力,从而提升语音合成模型的性能和提高生成音频的质量。
技术关键词
前馈神经网络 音频 分块 文本 线性单元 数据 信息编码 矩阵 模型训练模块 计算机设备 对齐模块 注意力机制 代表 AI语音 处理器 展开式
系统为您推荐了相关专利信息
1
能源智能化治理方法、装置、设备及存储介质
卷积模块 数据 能源需求量 多模态 情感分类模型
2
基于大数据的建筑工程造价数据检验方法、系统及介质
数据检验方法 建筑工程造价 分词模型 表格 列表
3
基于LLaVA大模型跨模态特征融合的农产品推荐方法
推荐方法 计算机推荐算法技术 注意力机制 农产品信息 个性化排名方法
4
一种车载通信方法、装置及电子设备
车载通信方法 文本 多模态 计算机程序指令 手部特征
5
一种基于MFE-CCAGNN模型的多模态抑郁识别系统
抑郁识别系统 特征提取模块 注意力 视频特征提取 多模态特征融合
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号