摘要
本发明涉及人工智能技术领域,公开了一种文本合成语音方法、装置、计算机设备及存储介质,应用于金融交易信息语音合成场景和医疗诊单信息语音合成场景中,其中,所述方法包括:获取初始文本音频对,并对所述初始文本音频对进行预处理,生成训练数据集和验证数据集;采用最大似然估计的方式基于所述训练数据集对自回归生成模型进行优化处理,以对所述自回归生成模型进行模型训练,生成目标语音合成模型;获取待合成文本,通过所述目标语音合成模型基于所述待合成文本以自回归方式生成标记序列;通过对所述标记序列进行解码生成目标语音信息。本发明有利于提高文本合成语音的准确性和效率。
技术关键词
语音方法
生成训练数据
序列
标记
文本编码器
计算机设备
金融交易信息
注意力
音频编码器
模型训练模块
可读存储介质
音频解码
人工智能技术
系统为您推荐了相关专利信息
智能检测系统
风险评估值
电力
影像
智能检测模块
风险订单
监控方法
网络模型训练
数据特征工程
异常订单
家居控制系统
家居控制方法
家电设备
大语言模型
多模态
会议智能管理方法
智能管理系统
标记
计算机设备
数据