摘要
本发明提供了一种多语言场景下基于AI大模型的语音合成方法、装置以及设备,包括:对输入的多语言待合成文本,进行文本特征提取,得到待合成文本特征;基于融合特征模型对待合成文本特征进行语音合成参数生成;其中,预先训练完成的所述融合特征模型中具有语音合成参数和文本的映射关系,所述语音合成参数包括基频参数、时长参数、频谱参数;将所述语音合成参数输入到预先训练完成的声码器中,基于所述声码器将所述语音合成参数中的多个参数处理为中间特征向量,将所述中间特征向量转换为离散的语音样本点,将所述离散的语音样本点转换为连续的语音波形,得到多语言待合成文本对应的合成语音。在本发明中,提升生成语音波形的连贯性和自然度。
技术关键词
文本
多语言
生成通讯密钥
字符
语音特征
声码器
参数
融合特征
语法结构
阵列
样本
长短期记忆单元
时间序列关系
主成分分析算法
曲线
场景
波形
语义
系统为您推荐了相关专利信息
情感分析装置
情感分析方法
文本
融合特征
融合策略
模型构建方法
特征构造方法
特征工程
语音特征提取
特征选择方法
财务信息自动化
图像识别技术
像素点
二值化图像
降噪单元
查询特征
时序特征
语义特征
问答方法
意图识别模型